A Meta lançou um conjunto de ferramentas para garantir e avaliar modelos de inteligência artificial (IA) generativa em 7 de dezembro.
Chamado de “Purple Llama”, o kit de ferramentas é projetado para ajudar desenvolvedores a construir de forma segura e protegida com ferramentas de IA generativa, como o modelo de código aberto da Meta, Llama-2.
Anunciando Purple Llama — Um novo projeto para ajudar a nivelar o campo de jogo para a construção de experiências de IA generativa seguras e responsáveis.
— AI at Meta (@AIatMeta) 7 de dezembro de 2023
Purple Llama inclui ferramentas com licenças permissivas, avaliações e modelos para permitir tanto a pesquisa quanto o uso comercial.
Mais detalhes ➡️ https://t.co/k4ezDvhpHp pic.twitter.com/6BGZY36eM2
Purple teaming de IA
De acordo com uma postagem no blog da Meta, a parte “Purple” de “Purple Llama” refere-se à combinação de “red teaming” e “blue teaming”.
Red teaming é um paradigma no qual desenvolvedores ou testadores internos atacam um modelo de IA propositalmente para ver se podem produzir erros, falhas ou saídas e interações indesejadas. Isso permite que os desenvolvedores criem estratégias de resiliência contra ataques maliciosos e protejam contra falhas de segurança.
Blue teaming, por outro lado, é praticamente o oposto. Aqui, desenvolvedores ou testadores respondem aos ataques de red teaming para determinar as estratégias de mitigação necessárias para combater ameaças reais em modelos voltados para produção, consumidores ou clientes.
Segundo a Meta:
“Acreditamos que para realmente mitigar os desafios que a IA generativa apresenta, precisamos adotar posturas tanto de ataque (red team) quanto de defesa (blue team). O Purple teaming, composto de responsabilidades de red e blue team, é uma abordagem colaborativa para avaliar e mitigar riscos potenciais.”
Protegendo modelos
O lançamento, que a Meta afirma ser o “primeiro conjunto de avaliações de segurança cibernética para Modelos de Linguagem de Grande Escala (LLMs) em toda a indústria”, inclui:
- Métricas para quantificar o risco de cibersegurança de LLMs
- Ferramentas para avaliar a frequência de sugestões de código inseguro
- Ferramentas para avaliar LLMs para tornar mais difícil gerar código malicioso ou auxiliar na realização de ataques cibernéticos.
A grande ideia é integrar o sistema em pipelines de modelo para reduzir saídas indesejadas e código inseguro, ao mesmo tempo limitando a utilidade de explorações de modelos para criminosos cibernéticos e malfeitores.
“Com este lançamento inicial,” escreve a equipe de IA da
Meta, “nosso objetivo é fornecer ferramentas que ajudarão a abordar os riscos delineados nos compromissos da Casa Branca.”
VEJA MAIS: