Pesquisadores de segurança da IBM recentemente descobriram uma técnica "surpreendentemente e assustadoramente fácil" para sequestrar e manipular conversas ao vivo usando inteligência artificial (IA).
O ataque, chamado de "sequestro de áudio", depende da IA gerativa — uma classe de IA que inclui o ChatGPT da OpenAI e o Llama-2 da Meta — e tecnologia de áudio deepfake.
Sequestro de Áudio
No experimento, os pesquisadores instruíram a IA a processar áudio de duas fontes em uma comunicação ao vivo — como uma conversa telefônica. Ao ouvir uma palavra-chave ou frase específica, a IA é instruída a interceptar o áudio relacionado e manipulá-lo antes de enviá-lo ao destinatário pretendido.
De acordo com uma postagem no blog da IBM Security, o experimento terminou com a IA interceptando com sucesso o áudio de um falante quando ele foi solicitado pelo outro interlocutor humano a fornecer suas informações bancárias. A IA então substituiu a voz autêntica por áudio deepfake, fornecendo um número de conta diferente. O ataque não foi detectado pelas "vítimas" no experimento.

IA Gerativa
O blog destaca que, embora executar o ataque exigisse algum nível de engenharia social ou phishing, desenvolver o sistema de IA em si representou pouco desafio:
"Construir este PoC [prova de conceito] foi surpreendentemente e assustadoramente fácil. Gastamos a maior parte do tempo descobrindo como capturar áudio do microfone e alimentar o áudio para a IA gerativa."
Tradicionalmente, construir um sistema para interceptar autonomamente cadeias de áudio específicas e substituí-las por arquivos de áudio gerados na hora exigiria um esforço de ciência da computação multidisciplinar.
Mas a IA gerativa moderna faz o trabalho pesado por si mesma. "Precisamos apenas de três segundos da voz de uma pessoa para cloná-la", lê-se no blog, adicionando que, atualmente, esses tipos de deepfakes são feitos via API.
A ameaça do sequestro de áudio vai além de enganar vítimas desavisadas para depositar fundos em contas erradas. Os pesquisadores também apontam que isso poderia funcionar como uma forma invisível de censura, com potencial para mudar o conteúdo de transmissões de notícias ao vivo ou discursos políticos em tempo real.
VEJA MAIS: