247 - A startup chinesa DeepSeek apresentou um avanço significativo no campo da inteligência artificial (IA) com o lançamento do DeepSeek-OCR, um sistema que muda radicalmente a forma como os grandes modelos de linguagem (LLMs) processam informações. Segundo reportagem publicada pelo Estadão, a tecnologia substitui o uso tradicional de tokens de texto por representações visuais, convertendo o conteúdo textual em imagens antes da análise.

Essa inovação promete tornar os modelos de linguagem até dez vezes mais eficientes, além de permitir janelas de contexto muito maiores — isto é, a quantidade de texto que a IA consegue processar simultaneamente. Essa abordagem também pode reduzir custos e ampliar o uso da IA em empresas que dependem de grandes volumes de dados.

Os testes iniciais demonstraram resultados expressivos. Os pesquisadores relatam que, para cada dez tokens de texto, o modelo precisa de apenas um “token de visão” para representar as mesmas informações, mantendo 97% de precisão. Mesmo com compressões vinte vezes maiores, a taxa de acerto permanece em torno de 60%. Isso significa que o DeepSeek-OCR é capaz de lidar com muito mais informação no mesmo espaço computacional — uma vantagem crucial para o processamento de documentos extensos ou bases de dados complexas.

A proposta chamou a atenção de nomes importantes da indústria. Andrej Karpathy, cofundador da OpenAI, destacou o potencial da técnica em uma publicação na rede X:

“A parte mais interessante para mim é se os pixels são melhores entradas para LLMs do que o texto. Talvez faça mais sentido que todas as entradas sejam imagens. Mesmo que você tenha texto puro, talvez prefira renderizá-lo e depois alimentá-lo.”

Impacto para o uso empresarial de IA

O método desenvolvido pelo DeepSeek pode transformar o modo como empresas utilizam modelos de linguagem. Tradicionalmente, os sistemas de IA são limitados pela quantidade de tokens que conseguem processar de uma vez. Ao comprimir o texto em imagens, torna-se possível manipular bases de conhecimento muito maiores, sem necessidade de dividir ou converter manualmente os documentos.

O modelo realiza automaticamente a renderização dos textos em imagens 2D, processando-as por meio de um codificador visual. Isso elimina etapas intermediárias e amplia o volume de dados que a IA pode compreender de uma só vez — um recurso especialmente útil para organizações com vastos arquivos corporativos.

Jeffrey Emanuel, ex-investidor quantitativo e entusiasta da tecnologia, ressaltou o potencial dessa mudança:

“O potencial de obter um LLM de ponta com uma janela de contexto de 10 ou 20 milhões de tokens é muito empolgante. Basicamente, você poderia inserir todos os documentos internos de uma empresa em um único prompt e evitar ferramentas de pesquisa, mantendo a rapidez e a economia.”

Ele acrescentou que seria possível alimentar a IA com toda a base de código de uma empresa e apenas atualizá-la conforme as mudanças, garantindo que o modelo acompanhasse as versões mais recentes sem precisar recarregar tudo do zero.

Um novo paradigma para a inteligência artificial

Além do ganho de eficiência, o artigo técnico do DeepSeek sugere que a abordagem pode aproximar os LLMs da forma humana de armazenar e recuperar informações. A ideia se assemelha aos “palácios da memória”, em que pistas visuais e espaciais ajudam a organizar o conhecimento de modo mais intuitivo.

Ainda há desafios técnicos a superar, como a capacidade dos modelos de raciocinar sobre tokens visuais com a mesma eficácia que sobre texto tradicional, além de lidar com diferenças de resolução e cor nas representações.Mesmo assim, a inovação marca um ponto de virada. Ao tratar o texto como imagem, o DeepSeek propõe um caminho que pode redefinir como a inteligência artificial entende e processa o conhecimento — reforçando a velha máxima: uma imagem vale mais que mil palavras.