Uma investigação conduzida pela Tenable Research, empresa especializada em segurança cibernética e gestão de exposição do dedo, revelou sete vulnerabilidades graves no ChatGPT-4o, algumas das quais permanecem presentes até o ChatGPT-5.

Essas falhas, apelidadas coletivamente de “HackedGPT”, permitem que criminosos virtuais burlem mecanismos de proteção e acessam dados pessoais, históricos de conversa e memórias armazenadas pelos usuários da utensílio.

De conformidade com o relatório da Tenable, as vulnerabilidades permitem roubo de dados, manipulação de respostas e persistência de ataques dentro do sistema de IA. Em alguns casos, basta que o usuário faça uma pergunta ou clique em um link para que o protótipo seja comprometido, sem que o ataque seja perceptível.

A pesquisa, liderada pelo engenheiro sênior Moshe Bernstein, descreve uma novidade categoria de prenúncio chamada injeção indireta de prompt. Esse tipo de ataque insere instruções ocultas em sites aparentemente inofensivos, comentários de blog ou textos formatados.

Quando o ChatGPT acessa esses conteúdos durante a navegação, ele pode ser iludido a executar comandos maliciosos, expondo informações do usuário.

Entre as sete falhas identificadas, algumas chamam atenção pela sisudez:

  • Injeção indireta de prompt por sites confiáveis: o ChatGPT lê comandos escondidos em páginas legítimas e passa a executá-los.

  • Ataques “0-clique” e “1-clique”: o comprometimento ocorre sem interação direta ou com exclusivamente um clique em um link malicioso.

  • Injeção de memória persistente: códigos maliciosos podem ser armazenados na memória de longo prazo da IA, permanecendo ativos mesmo depois o fechamento da sessão, o que possibilita vazamentos contínuos de informações em futuras conversas.

  • Preterição de segurança e ocultação de teor: erros de validação e formatação permitem mascarar comandos maliciosos, enganando tanto o protótipo quanto o usuário.

Essas falhas afetam principalmente as funções de navegação web e memória do ChatGPT, recursos que interagem com a internet em tempo real e guardam informações pessoais para melhorar respostas futuras.

Caso exploradas, as brechas podem vazar dados sigilosos armazenados nas conversas, muito porquê informações conectadas a outros serviços, porquê Google Drive e Gmail.

Bernstein destacou que o HackedGPT revela uma fraqueza estrutural nos grandes modelos de linguagem, que ainda não sabem honrar de forma segura quais informações externas devem ser confiadas.

Segundo ele, “essas falhas isoladamente parecem pequenas, mas juntas formam uma enxovia completa de ataque, da injeção e evasão ao roubo e persistência de dados”.

A OpenAI foi informada das descobertas dentro de um processo de divulgação responsável, corrigindo secção dos problemas, embora algumas vulnerabilidades permaneçam ativas. A Tenable alerta que, enquanto essas brechas não forem totalmente sanadas, usuários e empresas correm riscos reais de privacidade.

Uma vez que medidas preventivas, a Tenable recomenda que as equipes de segurança tratem as ferramentas de IA porquê superfícies de ataque ativas, revisem integrações com outros sistemas, e monitorem sinais de comportamento anômalo, porquê respostas incomuns, links suspeitos ou acessos a dados não solicitados. Também orienta a isolar as funções de memória e navegação do ChatGPT e substanciar a validação de URLs.

Para os pesquisadores, a prelecção principal vai além das falhas técnicas: é necessário mudar a forma porquê a perceptibilidade sintético é protegida. “Não basta responsabilizar na IA; precisamos governá-la”, afirmou Bernstein. “Esses sistemas devem ser testados continuamente, com salvaguardas que garantam que trabalhem para nós, e não contra nós.”