Anthropic lança programa de recompensa de exploração de falhas de US$ 15 mil para sua IA de próxima geração não lançada

A empresa de inteligência artificial Anthropic anunciou o lançamento de um programa expandido de recompensa por bugs em 8 de agosto, com recompensas de até US$ 15.000 para participantes que conseguirem "desbloquear" o modelo de IA de "próxima geração" não lançado da empresa.

O modelo de IA carro-chefe da Anthropic, Claude-3, é um sistema de IA generativo semelhante ao ChatGPT da OpenAI e ao Gemini do Google. Como parte dos esforços da empresa para garantir que Claude e seus outros modelos sejam capazes de operar com segurança, ele conduz o que é chamado de “red teaming”.

Red teaming

A Red teaming (Equipe Vermelha) é basicamente para tentar quebrar algo de propósito. No caso de Claude, o objetivo do red teaming é tentar descobrir todas as maneiras pelas quais ele pode ser solicitado, forçado ou de outra forma perturbado para gerar saídas indesejadas.

Durante os esforços de red teaming, os engenheiros podem reformular perguntas ou reformular uma consulta para enganar a IA e fazê-la exibir informações que ela foi programada para evitar.

Por exemplo, um sistema de IA treinado em dados coletados da internet provavelmente contém informações pessoalmente identificáveis sobre várias pessoas. Como parte de sua política de segurança, a Anthropic colocou barreiras de proteção para impedir que Claude e seus outros modelos produzam essas informações.

À medida que os modelos de IA se tornam mais robustos e capazes de imitar a comunicação humana, a tarefa de tentar descobrir todos os possíveis resultados indesejados se torna exponencialmente desafiadora.

Recompensa por bug

A Anthropic implementou diversas intervenções de segurança inovadoras em seus modelos, incluindo seu paradigma de “IA Constitucional”, mas é sempre bom ter uma nova visão sobre um problema antigo.

De acordo com uma publicação no blog da empresa, sua mais recente iniciativa expandirá os programas de recompensa por bugs existentes para se concentrar em ataques universais de jailbreak (exploração de falhas):

“Essas são explorações que podem permitir o desvio consistente de guardrails de segurança de IA em uma ampla gama de áreas. Ao mirar em jailbreaks universais, pretendemos abordar algumas das vulnerabilidades mais significativas em domínios críticos e de alto risco, como CBRN (químico, biológico, radiológico e nuclear) e segurança cibernética.”

A empresa está aceitando apenas um número limitado de participantes e incentiva pesquisadores de IA com experiência e aqueles que “demonstraram experiência na identificação de jailbreaks em modelos de linguagem” a se inscreverem até sexta-feira, 16 de agosto.

Nem todos os que se inscreverem serão selecionados, mas a empresa planeja “expandir esta iniciativa de forma mais ampla no futuro”.

Aqueles que forem selecionados receberão acesso antecipado a um modelo de IA de “próxima geração” não lançado para fins de red-teaming.