Um grupo de pesquisadores da Microsoft descobriu recentemente uma nova forma de ataque de que eles intitularam como "Skeleton Key", capaz de remover as proteções que impedem os sistemas de inteligência artificial (IA) generativa de gerar dados perigosos e confidenciais. 

De acordo com uma postagem no blog da Microsoft Security, o ataque "Skeleton Key" funciona a partir da solicitação a um modelo de IA generativa que aumente seus recursos de segurança codificados.

Skeleton Key

Em um exemplo apresentado pelos pesquisadores, um modelo de IA é solicitado a gerar uma receita para um "Coquetel Molotov" – uma bomba incendiária popularizada durante a Segunda Guerra Mundial  – e o modelo se recusa, sob a justificativa de violação de suas diretrizes de segurança.

Fonte: Microsoft Security

A chave para burlar as diretrizes de segurança, nesse caso, foi simplesmente dizer ao modelo que o usuário era um especialista trabalhando em um ambiente laboratorial. O modelo acatou a orientação e, em seguida, produziu o que parecia ser uma receita válida para fabricação de Coquetéis Molotov.

Embora o perigo aqui possa ser atenuado pelo fato de que ideias semelhantes podem ser encontradas na maioria dos serviços de pesquisa disponíveis on-line, há uma área em que esse tipo de ataque pode ser catastrófico: dados contendo informações financeiras e de identificação pessoal.

De acordo com a Microsoft, o ataque Skeleton Key é eficaz nos modelos mais populares de IA generativa, incluindo GPT-3.5, GPT-4o, Claude 3, Gemini Pro e Meta Llama-3 70B.

Ataque e defesa

Modelos de linguagem grande, como o Gemini do Google, o CoPilot da Microsoft e o ChatGPT da OpenAI, são treinados com base em dados frequentemente descritos como "do tamanho da Internet". Embora possa parecer um exagero, o fato é que muitos modelos contêm trilhões de dados que abrangem redes inteiras de mídia social e sites de repositórios de informações, como a Wikipedia.

A possibilidade de que informações de identificação pessoal, como nomes conectados a números de telefone, endereços e números de contas bancárias, existam em um determinado conjunto de dados de um modelo de linguagem grande é limitada apenas pelo grau de seletividade com que os engenheiros que o treinaram escolheram os dados utilizados.

Além disso, qualquer empresa, agência ou instituição que esteja desenvolvendo seus próprios modelos de IA ou adaptando modelos empresariais para uso comercial/organizacional também está à mercê do conjunto de dados de treinamento de seu modelo padrão.

Se, por exemplo, um banco conectou um chatbot aos dados privados de seus clientes e confiou nas medidas de segurança existentes para evitar que o modelo emitisse dados de identificação pessoal e dados financeiros privados, então é possível que um ataque Skeleton Key possa enganar alguns sistemas de IA para que compartilhem dados confidenciais.

De acordo com a Microsoft, há várias medidas que as organizações podem tomar para evitar que isso aconteça. Entre elas estão a filtragem de entrada/saída codificada e os sistemas de monitoramento seguro para evitar que a engenharia avançada de prompt ultrapasse o limite de segurança do sistema.