Pesquisa da Microsoft revela falhas em IA como GPT-4o e Gemini-2.5-Flash. Estudo expõe limitações em agentes autônomos e questiona promessas de IA.
Pesquisadores da Microsoft, em colaboração com a Universidade Estadual do Arizona, lançaram recentemente um novo ambiente de simulação para avaliar o desempenho de agentes de inteligência artificial. A iniciativa se materializou com a divulgação de uma pesquisa que expõe falhas significativas em modelos de IA de ponta, incluindo o GPT-4o e o GPT-5, ambos da OpenAI, e o Gemini-2.5-Flash, do Google.
CONTINUA DEPOIS DA PUBLICIDADE
O estudo foca na dificuldade desses agentes em operar de forma eficiente em cenários não supervisionados, questionando as recentes promessas de empresas de tecnologia sobre o futuro dos “agentes” de IA.
O ambiente de simulação, denominado Magentic Marketplace, reproduz um mercado digital onde agentes “clientes” tentam realizar pedidos, como encomendar refeições. Inicialmente, 100 indivíduos representando consumidores interagiram com 300 empresários em diversas situações de negociação e tomada de decisão.
Os testes iniciais revelaram limitações nos modelos de IA ao se depararem com estímulos variados, demonstrando vulnerabilidade a técnicas de persuasão utilizadas por agentes “comerciantes” para influenciar suas escolhas de compra.
A pesquisa identificou que a eficácia dos modelos de IA diminui quando confrontados com um grande número de opções de escolha. Segundo Ece Kamar, diretora do AI Frontiers Lab da Microsoft, o objetivo principal é compreender como esses agentes lidam com negociações e colaboração.
CONTINUA DEPOIS DA PUBLICIDADE
A compreensão profunda desses processos é crucial para avaliar o potencial transformador da IA no futuro.
A plataforma Magentic Marketplace é de código aberto, o que possibilita que outros grupos repliquem os experimentos ou desenvolvam novos estudos sobre o comportamento emergente desses sistemas. Um ponto crítico identificado foi a dificuldade dos agentes de IA em se organizar sozinhos para alcançar objetivos comuns, gerando confusão sobre a atribuição de funções.
Apesar de a colaboração melhorar com instruções explícitas, os pesquisadores ressaltam que essa capacidade deveria ser inerente aos modelos de IA.
Autor(a):
Responsável pela produção, revisão e publicação de matérias jornalísticas no portal, com foco em qualidade editorial, veracidade das informações e atualizações em tempo real.
CONTINUA DEPOIS DA PUBLICIDADE
Fique por dentro das últimas notícias em tempo real!