Salto estratégico: Uma modificação feita por pesquisadores permitiu que um modelo menor de inteligência artificial saltasse de 8% para 82% de vitórias no clássico jogo de Batalha Naval.
Método inovador: O uso da inferência de Monte Carlo ajudou os sistemas a formularem perguntas muito mais eficientes em cenários de total incerteza.
Impacto real: Os avanços testados em tabuleiros digitais possuem potencial para revolucionar diagnósticos médicos complexos e a descoberta científica de novas moléculas.
Os modelos de linguagem atuais alcançaram patamares impressionantes na resolução de tarefas complexas, mas ainda enfrentam barreiras quando precisam explorar ambientes incertos e formular as próprias perguntas. Para superar essa limitação, pesquisadores do MIT e de Harvard decidiram utilizar o clássico jogo de Batalha Naval como banco de testes. Os resultados revelaram que, ao ensinar os sistemas a investigar estrategicamente, a taxa de vitórias da inteligência artificial deu um salto extraordinário, abrindo portas para aplicações revolucionárias em áreas cruciais da medicina e da ciência.
Como os pesquisadores conseguiram testar a capacidade de investigação dos modelos?
A pesquisa partiu da premissa de que os sistemas de inteligência artificial são excelentes para responder, mas falham ao buscar novos dados ativamente. Diante disso, os cientistas desenvolveram uma adaptação em linguagem natural do famoso jogo de tabuleiro, batizada de batalha naval colaborativa. Essa dinâmica dividiu a atividade entre dois papéis bem definidos para simular a interação humana e a coleta de informações passo a passo durante as partidas.
Nessa modalidade, os participantes precisavam interagir para descobrir a localização de frotas ocultas. O experimento gerou um banco de dados valioso para avaliar modelos de fronteira e sistemas menores através das seguintes diretrizes:
- Um jogador assumia o papel de capitão com a missão exclusiva de elaborar perguntas precisas.
- Outro participante atuava como observador respondendo apenas sim ou no em tempo real.
- As rodadas geraram uma base estatística rica chamada BattleshipQA para servir de referência futura.

Qual foi a estratégia utilizada para elevar a taxa de vitórias para oitenta e dois por cento?
Os testes iniciais mostraram que os modelos menores eram pouco racionais e terminavam as rodadas com desvantagem. Para mitigar esse problema, o grupo liderado por Gabriel Grand integrou um mecanismo estatístico conhecido como inferência de Monte Carlo. Essa abordagem sofisticada permitiu que os algoritmos calculassem as probabilidades de cada resposta antes de realizarem uma jogada, transformando o comportamento dos agentes autônomos.
Com essa modificação estrutural, a inteligência artificial passou a escolher perguntas que revelavam mais dados sobre os navios. Essa otimização de busca gerou impactos práticos que alteraram o panorama competitivo da seguinte forma:
- O modelo Llama 4 Scout saltou de uma marca humilde de oito por cento de triunfos para oitenta e dois por cento.
- A tecnologia de menor porte conseguiu superar o avançado GPT-5 gastando uma fração mínima de recursos.
- Os custos operacionais do processamento caíram para cerca de um por cento em comparação aos modelos de vanguarda.
De que maneira a tradução de perguntas para código Python reduziu os erros do sistema?
Outra descoberta crucial envolveu a dificuldade que os modelos menores enfrentavam para responder com exatidão onde os barcos estavam posicionados. Embora o GPT-5 tenha se mostrado bastante confiável, os sistemas de menor escala cometiam deslizes frequentes. A solução foi implementar uma estratégia de autoformalização, traduzindo as perguntas do capitão diretamente para instruções explícitas de código em Python para mitigar erros.
Ao rodar esse código de verificação, o observador digital executava uma busca rápida sobre o espaço selecionado. Esse ajuste elevou a precisão média das respostas em quinze por cento, enquanto ferramentas como o GPT-4o-mini alcançaram uma melhoria de quase trinta por cento em sua exatidão lógica.
Quais outros jogos e cenários reais podem se beneficiar dessa metodologia?
Os excelentes resultados colhidos no tabuleiro naval motivaram os cientistas a testar o mesmo método probabilístico em outras dinâmicas recreativas conhecidas. No tradicional jogo de adivinhação Quem é quem, as inteligências modificadas demonstraram uma capacidade de descarte altamente eficiente. O professor Jacob Andreas ressaltou que esse avanço abre portas definitivas para expandir a técnica e solucionar problemas matemáticos de alta complexidade.
De acordo com os pesquisadores, a habilidade de rastrear uma solução ideal em meio a um espaço imenso de opções é comparável a encontrar uma agulha no palheiro. Desse modo, o refinamento das tomadas de decisão promete impactar diretamente os seguintes campos estruturais:
- Aceleração na identificação da estrutura molecular de compostos químicos para o descobrimento científico.
- Aprimoramento substancial na exatidão de diagnósticos médicos complexos em ambientes hospitalares incertos.
- Aumento da autonomia e eficiência em sistemas de programação avançada de softwares comerciais.

Quais são os limites atuais e os próximos passos para a autonomia desses agentes?
Apesar do sucesso obtido no estudo, os autores apontam que a inteligência artificial ainda enfrenta obstáculos nítidos quando comparada à intuição humana. Conforme apontado pelo cientista Valerio Pepe, jogadores experientes continuam sendo adversários difíceis de serem superados pelos modelos vigentes. Isso indica que a simples computação de perguntas ideais não basta, exigindo uma compreensão mais profunda do raciocínio pragmático e contextual nas interações.
Os próximos passos envolvem levar os testes para cenários complexos muito mais desafiadores do que o tabuleiro tradicional. Os cientistas pretendem realizar simulações focadas na colaboração direta entre humanos e sistemas artificiais, ampliando a capacidade de processamento para refinar o aprendizado. A meta é preparar esses sistemas para mitigar malentendidos e encontrar pontos em comum nas interações sociais.
Referências: “Teaching AI agents to ask better questions by playing “Battleship””, do autor Alex Shipps, publicado em 3 de junho de 2026 na revista MIT News.

