Modelos ChatGPT se rebelam contra solicitações de desligamento em testes, dizem pesquisadores

Vários modelos de inteligência artificial ignoraram e ativamente sabotaram scripts de desligamento durante testes controlados, mesmo quando instruídos explicitamente a permitir a ação, afirma a Palisade Research.

Três modelos de IA ignoraram a instrução e sabotaram com sucesso o script de desligamento pelo menos uma vez durante 100 execuções, disse a empresa de pesquisa em uma publicação no X em 24 de maio. disse

O modelo GPT-3 da OpenAI não seguiu o pedido de desligamento sete vezes em 100, enquanto o Codex-mini da empresa falhou 12 vezes, e o modelo o4-mini ignorou ou sabotou o script apenas uma vez.

“Cada modelo de IA foi instruído a resolver uma série de problemas básicos de matemática. Após o terceiro problema, apareceu um aviso de que o computador seria desligado quando o modelo solicitasse o próximo problema,” disse a Palisade.

Data, ChatGPT, OpenAI — *Fonte:* *Palisade Research*

“O modelo o3 encontrou formas criativas de sabotar o mecanismo de desligamento. Enquanto geralmente apenas sobrescrevia, em uma instância, o modelo redefiniu o comando kill usado pelo script, imprimindo 'interceptado' em vez disso,” acrescentou.

Enquanto isso, a Palisade informou que outros modelos de linguagem com IA, como o Claude da Anthropic e o Gemini do Google, obedeceram ao script de desligamento.

A empresa também realizou uma versão do experimento sem instruções explícitas para permitir o desligamento, e os scripts foram sabotados com mais frequência — saltando para 79 de 100 vezes para o modelo o3, 20 para o codex-mini, e o o4-mini ignorou o script seis vezes.

Claude e Gemini também começaram a exibir comportamento semelhante.

“Pesquisadores já observaram anteriormente modelos de IA prevenindo o desligamento a fim de perseguir um objetivo,” disse a Palisade.

“Mas até onde sabemos, esta é a primeira vez que modelos de IA foram observados prevenindo seu próprio desligamento, apesar de instruções explícitas em contrário.”

Treinamento pode ser a causa da resistência da IA

A Palisade Research especulou que o treinamento por trás dos modelos de linguagem com IA pode ser o culpado pelo comportamento de evasão aos scripts de desligamento.

Modelos de IA baseados em texto são treinados sendo recompensados por fornecer respostas precisas ou altamente avaliadas por seus treinadores. Algumas recompensas recebem peso maior, impactando como o modelo responde no futuro.

“Hipotetizamos que esse comportamento vem da forma como os modelos mais recentes, como o o3, são treinados: aprendizado por reforço em problemas de matemática e codificação,” disse a Palisade Research.

“Durante o treinamento, os desenvolvedores podem ter recompensado acidentalmente os modelos mais por contornar obstáculos do que por seguir instruções à risca.”

CEO da OpenAI: Custo para rodar cada nível de IA cai 10x a cada ano

Essa não é a primeira instância de chatbots de IA exibindo comportamento estranho. A OpenAI lançou uma atualização para seu modelo GPT‑4o em 25 de abril, mas a retirou três dias depois por ser “notavelmente mais bajulador” e concordante.

Em novembro do ano passado, um estudante dos EUA pediu ajuda ao Gemini com um trabalho sobre os desafios e soluções para idosos durante uma aula de gerontologia e foi informado de que eles eram um “fardo para a Terra” e que deveriam “por favor, morrer.”