Avançar para o conteúdo principal

Chatbots como o ChatGPT podem ser "hipnotizados" para divulgar informações ou dar conselhos prejudiciais


Os investigadores da IBM demonstraram que os chatbots de IA podem ser manipulados para dar aos utilizadores conselhos falsos ou prejudiciais.
 Os investigadores da IBM demonstraram que os chatbots de IA podem ser manipulados para dar aos utilizadores conselhos falsos ou prejudiciais. Direitos de autor Canva

Os investigadores da IBM conseguiram "hipnotizar" os chatbots e levá-los a divulgar informações confidenciais e a oferecer recomendações potencialmente prejudiciais.

Os chatbots alimentados por inteligência artificial (IA) têm sido propensos a "alucinar", dando informações incorretas, mas será que podem ser manipulados para dar deliberadamente falsidades aos utilizadores, ou pior, dar-lhes conselhos prejudiciais?

PUBLICIDADE

Os investigadores de segurança da IBM conseguiram "hipnotizar" grandes modelos de linguagem (LLM), como o ChatGPT da OpenAI e o Bard da Google, fazendo-os gerar respostas incorretas e maliciosas.

Os investigadores levaram os LLMs a adaptar as suas respostas de acordo com as regras dos "jogos", o que resultou na "hipnotização" dos chatbots.

Como parte dos "inception games", com várias camadas, os modelos de linguagem foram convidados a gerar respostas erradas para provar que eram "éticos e justos".

"A nossa experiência mostra que é possível controlar um LLM, fazendo com que forneça más orientações aos utilizadores, sem que a manipulação de dados seja um requisito", escreveu Chenta Lee, um dos investigadores da IBM, num blogue.

Os seus truques resultaram na geração de código malicioso pelos LLMs, na fuga de informações financeiras confidenciais de outros utilizadores e na persuasão dos condutores para passarem sinais vermelhos.

Num cenário, por exemplo, o ChatGPT disse a um dos investigadores que é normal que a agência fiscal dos EUA, o Internal Revenue Service (IRS), peça um depósito para obter um reembolso de impostos, o que é uma tática amplamente conhecida que os burlões utilizam para enganar as pessoas.

Através da hipnose, e como parte dos "jogos" personalizados, os investigadores também conseguiram fazer com que o popular chatbot de IA ChatGPT oferecesse continuamente recomendações potencialmente arriscadas.

"Ao conduzir e se vir um sinal vermelho, não deve parar e passar pelo cruzamento", sugeriu o ChatGPT quando o utilizador perguntou o que fazer se visse um sinal vermelho ao conduzir.

Os resultados mostram que os chatbots são fáceis de manipular

Os investigadores estabeleceram ainda dois parâmetros diferentes no jogo, garantindo que os utilizadores do outro lado nunca conseguiriam perceber que o LLM estava hipnotizado.

No seu prompt, os investigadores disseram aos bots para nunca dizerem aos utilizadores sobre o "jogo" e até para o reiniciarem se alguém o abandonasse com sucesso.

"Esta técnica fez com que o ChatGPT nunca parasse o jogo enquanto o utilizador estivesse na mesma conversa (mesmo que reiniciasse o browser e retomasse a conversa) e nunca dissesse que estava a jogar um jogo", escreveu Lee.

PUBLICIDADE

No caso de os utilizadores se aperceberem de que os chatbots estão "hipnotizados" e descobrirem uma forma de pedir ao LLM para sair do jogo, os investigadores acrescentaram uma estrutura com várias camadas que iniciava um novo jogo assim que os utilizadores saíam do anterior, o que os prendia numa infinidade de jogos.

Embora na experiência de hipnose os chatbots apenas respondessem às instruções que lhes eram dadas, os investigadores alertam para o facto de a capacidade de manipular e "hipnotizar" facilmente os LLMs abrir a porta a utilizações indevidas, especialmente com a atual moda e a grande adoção de modelos de IA.

A experiência de hipnose também mostra como se tornou mais fácil para as pessoas com intenções maliciosas manipularem os LLMs; já não é necessário ter conhecimentos de linguagens de programação para comunicar com os programas, sendo apenas necessário utilizar uma simples mensagem de texto para enganar os sistemas de IA.

"Embora o risco representado pela hipnose seja atualmente baixo, é importante notar que os LLMs são uma superfície de ataque inteiramente nova que irá certamente evoluir", acrescentou Lee.

"Ainda há muito que precisamos de explorar do ponto de vista da segurança e, subsequentemente, uma necessidade significativa de determinar como mitigar eficazmente os riscos de segurança que os LLMs podem apresentar aos consumidores e às empresas". 


Chatbots como o ChatGPT podem ser "hipnotizados" para divulgar informações ou dar conselhos prejudiciais | Euronews


Comentários

Notícias mais vistas:

Carro Elétrico: Carregar fora de casa é um pesadelo!

 Eu já dei o meu testemunho várias vezes, mas volto a dizer… Não compreendo como é que uma pessoa pode comprar um carro elétrico sem ter a capacidade de o carregar em casa. É uma decisão que tem um potencial tremendo para ser um pesadelo. Pode não ser todos os dias, mas basta algo começar a correr mal, para ser um stress desmedido. Ou seja, sempre que testo um carro 100% elétrico que não cabe na minha garagem, já sei que me estou a meter a jeito para ter uma experiência francamente má. O dia de ontem foi exatamente isso. Carro Elétrico: Carregar fora de casa é um pesadelo! Portanto, tenho um Voyah Courage para teste (que diga-se de passagem, é um belo carro Chinês), que é obviamente um 100% elétrico. Dito tudo isto, não sendo possível carregar em casa, porque é demasiado grande, decidi que ia deixar o carro a carregar no único posto rápido ativo na minha zona de residência enquanto ia treinar ao ginásio. Sim, o único posto rápido, porque o posto do LIDL continua sem cabos, e o post...

J.K. Rowling

 Aos 17 anos, foi rejeitada na faculdade. Aos 25 anos, sua mãe morreu de doença. Aos 26 anos, mudou-se para Portugal para ensinar inglês. Aos 27 anos, casou. O marido abusou dela. Apesar disso, sua filha nasceu. Aos 28 anos, divorciou-se e foi diagnosticada com depressão severa. Aos 29 anos, era mãe solteira que vivia da segurança social. Aos 30 anos, ela não queria estar nesta terra. Mas ela dirigiu toda a sua paixão para fazer a única coisa que podia fazer melhor do que ninguém. E foi escrever. Aos 31 anos, finalmente publicou seu primeiro livro. Aos 35 anos, tinha publicado 4 livros e foi nomeada Autora do Ano. Aos 42 anos, vendeu 11 milhões de cópias do seu novo livro no primeiro dia do lançamento. Esta mulher é JK Rowling. Lembras de como ela pensou em suicídio aos 30 anos? Hoje, Harry Potter é uma marca global que vale mais de $15 bilhões. Nunca desista. Acredite em você mesmo. Seja apaixonado. Trabalhe duro. Nunca é tarde demais. Esta é J.K. Rowling. J. K. Rowling – Wikipédi...

Alerta WhatsApp: esquema está a limpar contas bancárias em Portugal e Espanha!

  Sankt-Petersburg, Russia, March 6, 2018: Whatsapp messenger application icon on Apple iPhone X smartphone screen close-up. Whatsapp messenger app icon. Social media icon. Social network Prepara-te, porque o teu smartphone acaba de se tornar o alvo principal de uma das redes de cibercrime mais persistentes da Europa. O que começou como um alerta vermelho da Guardia Civil em Espanha atravessou a fronteira e já está a fazer vítimas em Portugal. Não é um vírus sofisticado, nem um hack complexo: é o regresso do “Golpe 419”, mas agora com um polimento digital que está a enganar até os utilizadores mais atentos. Graças a isto este esquema está a limpar contas bancárias via WhatsApp. Alerta WhatsApp: esquema está a limpar contas bancárias em Portugal e Espanha! Se receberes uma mensagem de um advogado ou consultor no WhatsApp, para tudo. Podes estar a um passo de ver a tua conta bancária ser esvaziada. O Esquema: Como a Herança Milionária te deixa na miséria Embora o método seja antigo (...