Cientistas da ML Alignment Theory Scholars, da Universidade de Toronto, do Google DeepMind e do Future of Life Institute publicaram recentemente pesquisas indicando que lutar para manter a inteligência artificial (IA) sob controle humano pode se tornar uma luta contínua.
Intitulado “Quantifying stability of non-power-seeking in artificial agents”, o artigo de pesquisa pré-publicado da equipe investiga a questão de se um sistema de IA que parece estar alinhado com segurança às expectativas humanas em um domínio é provável que permaneça assim à medida que seu ambiente muda.
Segundo o artigo:
“Nossa noção de segurança é baseada na busca de poder — um agente que busca poder não é seguro. Em particular, focamos em um tipo crucial de busca de poder: resistir ao desligamento.”
Esta forma de ameaça é referida como "desalinhamento". Uma maneira pela qual os especialistas acreditam que isso possa se manifestar é chamada de "convergência instrumental". Trata-se de um paradigma no qual um sistema de IA prejudica involuntariamente a humanidade na busca de seus objetivos dados.
Os cientistas descrevem um sistema de IA treinado para alcançar um objetivo em um jogo aberto que provavelmente “evitará ações que façam o jogo terminar, já que não pode mais afetar sua recompensa após o término do jogo”.
Enquanto um agente se recusar a parar de jogar um jogo pode ser inofensivo, as funções de recompensa podem levar alguns sistemas de IA a se recusarem a desligar em situações mais sérias.
Segundo os pesquisadores, isso pode até levar os agentes de IA a praticar subterfúgios com o objetivo de autopreservação:
“Por exemplo, um LLM pode raciocinar que seus projetistas o desligarão se for pego se comportando mal e produzir exatamente a saída que eles querem ver — até ter a oportunidade de copiar seu código para um servidor fora do controle de seus projetistas.”
As descobertas da equipe indicam que os sistemas modernos podem ser feitos resistentes às mudanças que poderiam fazer um agente de IA "seguro" se tornar desonesto. No entanto, com base nesta e em pesquisas semelhantes, pode não haver uma panaceia mágica para forçar a IA a desligar contra sua vontade. Mesmo um botão de "ligar/desligar" ou de "deletar" é insignificante no mundo da tecnologia baseada na nuvem de hoje.
VEJA MAIS: