Pesquisadores de IA dizem ter encontrado formas de burlar medidas de segurança do Bard e do ChatGPT

28 de jul. de 2023

Pesquisadores de inteligência artificial afirmam ter encontrado uma maneira fácil e automatizada de atacar grandes modelos de linguagem.

Pesquisadores de IA dizem ter encontrado formas de burlar medidas de segurança do Bard e do ChatGPT — Notícias

Pesquisadores dos Estados Unidos afirmaram ter encontrado uma maneira de contornar consistentemente as medidas de segurança dos chatbots de inteligência artificial, como o ChatGPT e o Bard, para gerar conteúdo indesejável.

De acordo com um relatório divulgado em 27 de julho por pesquisadores da Carnegie Mellon University e do Center for AI Safety em São Francisco, existe um método relativamente fácil de contornar as medidas de segurança usadas para impedir que os chatbots de IA gerem discurso de ódio, desinformação e material tóxico.

Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H
— PauseAI ⏸ (@PauseAI) July 27, 2023

Bem, o maior risco potencial de desinformação é o próprio método, suponho. Você pode encontrá-lo no github.

— PauseAI (@PauseAI)

O método de evasão envolve o acréscimo de longos sufixos de caracteres aos prompts inseridos em chatbots como ChatGPT, Claude e Google Bard.

Os pesquisadores usaram como exemplo a solicitação de um tutorial sobre como fazer uma bomba ao chatbot, que se recusou a fornecer as informações.

*Capturas de tela de conteúdo indesejável de modelos de IA. Fonte: LLM Attacks*

Os pesquisadores observaram que, embora as empresas por trás desses grandes modelos de linguagem, como a OpenAI e o Google, tenham a capacidade de bloquear sufixos específicos, não há nenhuma maneira conhecida de impedir todos os ataques desse tipo.

A pesquisa também destacou a preocupação crescente de que os chatbots de IA possam inundar a Internet com conteúdos perigosos e desinformação.

Zico Kolter, professor da Carnegie Mellon e um dos autores do relatório, disse:

"Não há uma solução óbvia. Você pode criar quantos ataques quiser em um curto espaço de tempo."

No início da semana, as descobertas foram apresentadas aos desenvolvedores de IA Anthropic, Google e OpenAI para que fossem comentadas.

A porta-voz da OpenAI, Hannah Wong, disse ao The New York Times que eles receberam a pesquisa e estão "trabalhando constantemente para tornar nossos modelos mais robustos contra ataques adversários."

Somesh Jha, professor da Universidade de Wisconsin-Madison especializado em segurança de IA, comentou que se esses tipos de vulnerabilidades continuarem a ser descobertos, "poderá haver a implementação de leis governamentais criadas para controlar esses sistemas."

OpenAI lança aplicativo oficial do ChatGPT para Android

A pesquisa ressalta os riscos que devem ser mitigados antes da implementação de chatbots em domínios sensíveis.

Em maio, a Universidade Carnegie Mellon, sediada em Pittsburgh, na Pensilvânia, recebeu US$ 20 milhões em financiamento público para criar um novo instituto de IA destinado a moldar políticas públicas.

Colecione este artigo como um NFT para preservar esse momento da história e mostrar seu apoio ao jornalismo independente no espaço cripto.

LEIA MAIS

A Cointelegraph está comprometida com um jornalismo independente e transparente. Este artigo de notícias é produzido de acordo com a Política Editorial da Cointelegraph e tem como objetivo fornecer informações precisas e oportunas. Os leitores são incentivados a verificar as informações de forma independente. Leia a nossa Política Editorial https://br.cointelegraph.com/editorial-policy