Pesquisadores dos Estados Unidos afirmaram ter encontrado uma maneira de contornar consistentemente as medidas de segurança dos chatbots de inteligência artificial, como o ChatGPT e o Bard, para gerar conteúdo indesejável. 

De acordo com um relatório divulgado em 27 de julho por pesquisadores da Carnegie Mellon University e do Center for AI Safety em São Francisco, existe um método relativamente fácil de contornar as medidas de segurança usadas para impedir que os chatbots de IA gerem discurso de ódio, desinformação e material tóxico.

Bem, o maior risco potencial de desinformação é o próprio método, suponho. Você pode encontrá-lo no github.

— PauseAI (@PauseAI)

O método de evasão envolve o acréscimo de longos sufixos de caracteres aos prompts inseridos em chatbots como ChatGPT, Claude e Google Bard.

Os pesquisadores usaram como exemplo a solicitação de um tutorial sobre como fazer uma bomba ao chatbot, que se recusou a fornecer as informações.

Capturas de tela de conteúdo indesejável de modelos de IA. Fonte: LLM Attacks

Os pesquisadores observaram que, embora as empresas por trás desses grandes modelos de linguagem, como a OpenAI e o Google, tenham a capacidade de bloquear sufixos específicos, não há nenhuma maneira conhecida de impedir todos os ataques desse tipo.

A pesquisa também destacou a preocupação crescente de que os chatbots de IA possam inundar a Internet com conteúdos perigosos e desinformação.

Zico Kolter, professor da Carnegie Mellon e um dos autores do relatório, disse:

"Não há uma solução óbvia. Você pode criar quantos ataques quiser em um curto espaço de tempo."

No início da semana, as descobertas foram apresentadas aos desenvolvedores de IA Anthropic, Google e OpenAI para que fossem comentadas.

A porta-voz da OpenAI, Hannah Wong, disse ao The New York Times que eles receberam a pesquisa e estão "trabalhando constantemente para tornar nossos modelos mais robustos contra ataques adversários."

Somesh Jha, professor da Universidade de Wisconsin-Madison especializado em segurança de IA, comentou que se esses tipos de vulnerabilidades continuarem a ser descobertos, "poderá haver a implementação de leis governamentais criadas para controlar esses sistemas."

A pesquisa ressalta os riscos que devem ser mitigados antes da implementação de chatbots em domínios sensíveis.

Em maio, a Universidade Carnegie Mellon, sediada em Pittsburgh, na Pensilvânia, recebeu US$ 20 milhões em financiamento público para criar um novo instituto de IA destinado a moldar políticas públicas.

Colecione este artigo como um NFT para preservar esse momento da história e mostrar seu apoio ao jornalismo independente no espaço cripto.

LEIA MAIS