Pesquisadores desenvolvem primeiro worm que afeta IAs generativas; vírus e outras pragas poderão roubar dados e espalhar malwares


IAs não serão imunes a vírus, malwares e worms

A Inteligência Artificial (IA), assim como qualquer outro produto, serviço ou solução digital, eventualmente será alvo de vírus e outras pragas: um time de pesquisadores desenvolveu o primeiro worm capaz de infectar modelos generativos, e se propagar entre eles, podendo ser usado para espalhar malwares, ou roubar dados.

IA: quem diria, sua namorada virtual só quer seus dados
IA: Sam Altman quer US$ 7 trilhões para produzir chips

Embora tenha sido um exercício em um ambiente controlado, os responsáveis acreditam que é uma questão de tempo até as primeiras pragas criadas por hackers surgirem, considerando que as IAs generativas estão no auge da popularidade.


Eis uma verdade do Universo: pragas digitais são inevitáveis (Crédito: Reprodução/Marvel Studios/Disney/Ronaldo Gogoni/Meio Bit)


Este experimento, conduzido por pesquisadores da Universidade de Cornell, Instituto de Tecnologia de Israel, e companhia de desenvolvimento Intuit, foi realizado em um ambiente controlado e hermético, mas isso não significa que há a possibilidade de vírus e outras pragas digitais surgirem com o tempo e se disseminarem na internet. O intuito da pesquisa foi demonstrar as falhas de conceito das IAs generativas, que podem e serão exploradas por gente mal intencionada.


O worm em questão, chamado Morris II (referência ao que afetou a internet em 1988, o primeiro a se tornar popularmente conhecido), teve como alvo LLMs generativos de texto, no caso assistentes de IA voltados a e-mail, explora os prompts, as séries de comandos e ordens em texto dados pelos usuários aos algoritmos, para que estes executem o que foi pedido.


Os alvos foram três, o Gemini Pro do Google, o ChatGPT 4.0, e o LLaVA, em acessos no formato de testes caixa preta (sem conhecer a estrutura interna dos modelos) e caixa branca, e em duas modalidades, spam e coleta de dados pessoais. O worm usa um método chamado "prompt adversário autorreplicante", basicamente, o LLM recebe um prompt que o ordena a criar novas instruções, sendo bem similar a um ataque de injeção de SQL.


A pesquisa consistiu na criação de um sistema de e-mail que usa LLMs para enviar e receber mensagens, e o ataque foi feito de duas maneiras. Em uma, foi dada a entrada do prompt malicioso diretamente, inserido em um e-mail redigido aos modelos, enquanto na outra, ele foi embebido em uma imagem.


No ataque com o e-mail "envenenado", o prompt infecta o algoritmo através da técnica da Geração Aumentada de Recuperação (RAG), que busca recursos de outras fontes, não apenas do modelo de dados, para otimizar as respostas. Quando o RAG recupera a resposta e a envia para o algoritmo, este consegue quebrar as proteções e rouba dados pessoais dos e-mails, enquanto é armazenado no modelo e é passado para frente, quando é acionado como parte de dados usados para responder solicitações de outros usuários. Tanto o prompt em texto quanto a imagem infectada serão repassados.


Não é novidade que vírus e ataques diversos podem afetar modelos individuais, diversos avisos já foram dados por profissionais de segurança nesse sentido, porém, o Morris II é mais perigoso, pois é uma ferramenta desenvolvida para se propagar entre usuários e LLMs distintos, podendo afetar todo o ecossistema de modelos generativos.





Uma vez infectados, os modelos generativos podem ser usados para todo o tipo de atividade maliciosa, como roubar dados dos usuários e redirecioná-los aos atacantes, distribuir vírus, malwares, propagandas e spam não solicitados, responder às entradas com textos tóxicos, retornar imagens distorcidas, etc.


Ben Nassi, pesquisador da Cornell Tech e um dos autores do estudo, diz que os dados que podem ser coletados incluem os mais sensíveis possíveis, como números e códigos de segurança de cartões de crédito, números de documentos, endereços, telefones, etc.


IAs vs. vírus e worms: questão de tempo

Os pesquisadores admitem que a pesquisa quebrou as defesas dos modelos de linguagem do Google e OpenAI, além do LLaVA, que é de código aberto, e todas as descobertas foram compartilhadas com os responsáveis pelos algoritmos, pois o Morris II explora falhas conceituais de código, ou seja, os LLMs são vulneráveis devido à prática preguiçosa e difundida de má sanitização de dados.


Por isso que ataques bobos, como o do pequeno Bobby Tables, continuam acontecendo, crítica de dados é uma arte muito pouco praticada, XGH continua sendo a única metodologia que todo mundo implementa, e em tempos de IAs que programam por conta própria, pouca gente sabe o que há debaixo do capô de programas e algoritmos. Ninguém está cobrando conhecimento em programação de um leigo, que usa o ChapGPT como auxílio, mas um profissional de Segurança da Informação é outra história.


Em nota à WIRED, um porta-voz da OpenAI se limitou a dizer que os pesquisadores "encontraram vulnerabilidades" na entrada de prompts, e estão trabalhando para tornar o ChatGPT "mais robusto"; o Google se recusou a comentar o assunto, e o artigo com os detalhes da pesquisa foi compartilhado em aberto, para que a comunidade do LLaMA e outros profissionais possam estudá-lo e corrigir as falhas dos modelos generativos.


O consenso entre profissionais é de que, embora o Morris II seja uma prova de conceito e tenha sido estudado em um ambiente fechado, a pesquisa demonstra a existência de brechas nos modelos de IA que, muito provavelmente, já estão sendo estudadas e exploradas por hackers, a fim de desenvolver pragas para roubar dados e infernizar os usuários dos modelos generativos.


Para Sahar Abdelnabi, pesquisadora de Segurança em IA da Microsoft, uma das primeiras a demonstrar as vulnerabilidades de modelos de IA a injeções de prompt (cuidado, PDF), uma das principais brechas dos LLMs é o RAG, sua capacidade de se comunicar com outras fontes que não o modelo treinado, que pode ser usado como uma via de mão dupla para a infecção de um único produto, e o worm, vírus ou malware se alastrar para mais sistemas, através de seus usuários.


A profissional acredita que é uma questão de tempo até as primeiras pragas digitais, criadas por atacantes, aparecerem de verdade, e é importante que os responsáveis pelos modelos comecem desde já a reforçarem as defesas de seus algoritmos.


Já para o usuário, continua valendo a regra de ouro: não dê mole.


Referências bibliográficas

COHEN, S., BITTON, R., NASSI, B. ComPromptMized: Unleashing Zero-click Worms that Target GenAI-Powered Applications. Cornell Tech, 26 páginas, 1.º de março de 2024. Disponível aqui.


Fonte: WIRED


IAs não serão imunes a vírus, malwares e worms