A corrida para desenvolver uma inteligência artificial geral (AGI) ainda tem um longo caminho pela frente, segundo pesquisadores da Apple que descobriram que os principais modelos de IA ainda têm dificuldades com raciocínio.

Atualizações recentes nos principais modelos de linguagem de grande porte (LLMs), como o ChatGPT da OpenAI e o Claude da Anthropic, incluíram modelos de raciocínio avançados (LRMs), mas suas capacidades fundamentais, propriedades de escalabilidade e limitações “ainda são insuficientemente compreendidas”, disseram os pesquisadores da Apple em um artigo de junho chamado “A Ilusão do Pensamento.”

Eles observaram que as avaliações atuais focam principalmente em benchmarks matemáticos e de programação estabelecidos, “enfatizando a precisão da resposta final.”

No entanto, essa forma de avaliação não fornece insights sobre as capacidades de raciocínio dos modelos de IA, disseram os pesquisadores.

A pesquisa contrasta com a expectativa de que a AGI esteja a apenas alguns anos de distância.

Pesquisadores da Apple testam modelos de IA “pensantes”

Os pesquisadores criaram diferentes jogos de lógica para testar variantes “pensantes” e “não pensantes” do Claude Sonnet, o3-mini e o1 da OpenAI, e os chatbots DeepSeek-R1 e V3, além dos benchmarks matemáticos padrão.

Eles descobriram que “os LRMs de ponta sofrem um colapso completo na precisão quando a complexidade aumenta”, não generalizam bem o raciocínio, e sua vantagem desaparece conforme a dificuldade cresce — contrariando expectativas para capacidades de AGI.

“Descobrimos que os LRMs têm limitações em cálculos exatos: eles falham em usar algoritmos explícitos e raciocinam de forma inconsistente entre os desafios.”
Apple
Verificação das respostas finais e dos rastros de raciocínio intermediário (gráfico superior), e gráficos que mostram modelos não racionais são mais precisos em baixa complexidade (gráficos inferiores). Fonte: Apple Machine Learning Research 

IA está pensando demais, dizem os pesquisadores

Os pesquisadores observaram raciocínio inconsistente e superficial nos modelos, além de um fenômeno de “excesso de pensamento”, em que os chatbots geram respostas corretas inicialmente e depois desviam para conclusões erradas.

Os pesquisadores concluíram que os LRMs imitam padrões de raciocínio sem realmente internalizá-los ou generalizá-los, o que fica aquém do raciocínio em nível de AGI.

“Esses insights desafiam suposições prevalentes sobre as capacidades dos LRMs e sugerem que as abordagens atuais podem estar enfrentando barreiras fundamentais para o raciocínio generalizável.”
Apple
Ilustração dos quatro ambientes de quebra-cabeça. Fonte: Apple

A corrida para desenvolver a AGI

A AGI é o “Santo Graal” do desenvolvimento de IA: um estado em que a máquina consegue pensar e raciocinar como um ser humano, equiparando-se à inteligência humana.

Em janeiro, o CEO da OpenAI, Sam Altman, afirmou que a empresa estava mais próxima do que nunca de construir a AGI. “Agora estamos confiantes de que sabemos como construir AGI, conforme tradicionalmente entendida,” disse ele na época.

Em novembro, o CEO da Anthropic, Dario Amodei, afirmou que a AGI superaria as capacidades humanas dentro de um ou dois anos. “Se você observar a taxa de avanço dessas capacidades, realmente parece que chegaremos lá em 2026 ou 2027,” disse ele.