IA e Dungeons & Dragons: Um Novo Benchmark para a Inteligência Artificial
O Teste de Turing, criado em 1950 por Alan Turing, que buscava determinar se uma máquina pode imitar o comportamento inteligente de um ser humano, perdeu relevância. Atualmente, o RPG de mesa Dungeons & Dragons (D&D) se tornou o novo padrão para avaliar a inteligência artificial (IA).
CONTINUA DEPOIS DA PUBLICIDADE
Pesquisadores da UC San Diego e da Universidade da Pensilvânia, nos EUA, levaram grandes modelos de linguagem (LLMs) para dentro do sistema de narrativa compartilhado mais complexo da atualidade.
O objetivo é oferecer “um bom campo de testes para agentes de IA que precisam funcionar de forma independente por longos períodos”. Um artigo da NeurIPS 2025, uma das conferências de IA mais importantes do mundo, apresenta o D&D Agents, um laboratório de testes criado para avaliar a inteligência de LLMs como o GPT-5, o Claude 3.5 e o DeepSeek V3.1.
CONTINUA DEPOIS DA PUBLICIDADE
O software foi projetado para garantir um teste justo e científico, evitando escolhas aleatórias.
Os pesquisadores criaram grupos específicos com as 12 classes principais do D&D para ver como cada modelo se comportava com diferentes habilidades (magia, força bruta, furtividade). Diferente da versão humana Homebrew, na qual o Mestre (ou DM — Dungeon Master) inventa tudo, o D&D Agents roda sobre um código de computador (Python) que conhece todas as regras do Dungeons & Dragons 5ª Edição.
CONTINUA DEPOIS DA PUBLICIDADE
LEIA TAMBÉM!
Para garantir a padronização, escolheram o cenário da aventura “A Mina Perdida de Phandelver”.
O desempenho dos LLMs foi confrontado com dados de mais de dois mil jogadores experientes de D&D. Para interagir com a aventura — que é a introdução da 5ª edição do jogo original — as IAs não podem apenas escrever texto livre. Elas precisam usar comandos de programação específicos, chamados de “tools” (ferramentas).
O estudo define uma lista rigorosa de ações possíveis: “roll_attack()” para atacar, “move()” para andar, “check_hp()” para ver quanta vida um personagem tem e “cast_spell()” para lançar magia. Esses comandos permitem que a IA traduza sua “imaginação” (texto narrativo) em ações lógicas executáveis (código).
No cenário dos Reinos Esquecidos, assumindo papéis diferentes, um LLM assume o papel de DM (Mestre) para gerenciar o combate, controlar os monstros e descrever o ambiente, enquanto os outros modelos controlam os heróis (guerreiros, magos, clérigos), tentando vencer o combate de forma cooperativa.
O objetivo final do D&D Agents é medir habilidades que testes computacionais tradicionais ainda não conseguem medir, como consistência (a IA lembra que perdeu vida cinco jogadas atrás?), cumprimento de regras (a IA trapaceou ou inventou poderes?) e capacidade tática (ela sabe, por exemplo que é melhor atacar o curandeiro inimigo antes de um tanque blindado?).
Os resultados foram avaliados em seis eixos: uso de funções, fidelidade de parâmetros, qualidade da atuação, otimização tática, rastreamento de estado e eficiência de funções. A análise capturou tanto a capacidade quanto a confiabilidade em simulações de circuito fechado.
O Claude Haiku 3.5 se destacou como o melhor em “qualidade de atuação” e “otimização tática”. Ele conseguiu não só manter personas distintas (vozes de personagens), mas também usar recursos de forma agressiva e eficiente, superando modelos mais consistentes.
Já o GPT-5 mostrou um desempenho sólido, especialmente no papel de Mestre, mantendo as regras com rigor. O DeepSeek V3.1, por sua vez, provou ser altamente competitivo no papel de jogador, demonstrando boa coordenação tática, mas, ao receber muitas mensagens de correção do simulador, apresentou falhas.
