DeepSeek lança IA que combina texto e imagem para poupar recursos
- 21/10/2025
O sistema, denominado DeepSeek-OCR, utiliza a perceção visual como meio de compressão para reduzir significativamente o número de tokens -- as unidades mínimas de texto processadas por modelos linguísticos.
Segundo a empresa, o método permite reduzir o volume de texto entre sete e vinte vezes, tornando possível o processamento de grandes quantidades de informação sem aumento significativo dos custos computacionais.
Disponível em código aberto nas plataformas Hugging Face e GitHub, o modelo é composto por um codificador visual (DeepEncoder) e um descodificador com arquitetura Mixture-of-Experts (MoE), com 570 milhões de parâmetros.
Para além de reconhecer texto, o sistema consegue interpretar elementos visuais como tabelas, fórmulas e diagramas, o que o torna aplicável em áreas como finanças, investigação científica e análise documental.
Nos testes publicados pela empresa, o DeepSeek-OCR superou outros modelos de reconhecimento ótico de carateres (OCR), como o GOT-OCR 2.0 e o MinerU 2.0, ao manter uma precisão de 97% com compressão inferior a dez vezes.
A DeepSeek garante que o sistema pode gerar mais de 200.000 páginas de dados de treino por dia utilizando apenas uma placa gráfica Nvidia A100-40G.
O lançamento integra a estratégia da empresa sediada em Hangzhou de desenvolver modelos mais eficientes e de menor custo, a par dos anteriores modelos V3 e R1, focados em raciocínio e aprendizagem por reforço.
A DeepSeek integra a nova geração de desenvolvedores chineses de inteligência artificial de código aberto, a par de empresas como Baidu, Tencent ou Alibaba.
No entanto, especialistas alertam que as rigorosas regras de controlo de conteúdo na China podem limitar a expansão internacional destes sistemas.