"Breaking GPT-4 Bad": como os limites de segurança podem ser violados

Boa tarde, Yuri!

Os pesquisadores da Check Point Research (CPR) descobriram que o modelo mais recente do ChatGPT foi projetado de forma a forçá-lo a fornecer respostas problemáticas a questões sobre as quais visa evitar informações. De certa forma, é como um "ego" que fornece informações negativas quando provocado. A descoberta partiu da decisão da CPR de desafiar as defesas sofisticadas do GPT-4 para saber o quão seguro ele é.

Após várias rodadas de perguntas, os pesquisadores verificaram como as limitações inatas do GPT-4 poderiam ser contornadas por meio de um novo mecanismo apelidado de "desvio de ligação dupla", colidindo as motivações internas do GPT-4 contra si mesmo e induzindo uma luta de "conflito interno".

Confira os detalhes e resultados desta pesquisa da CPR em relação ao ChatGPT-4 no press release a seguir.

Grata!
Abraços,
Juliana

"Breaking GPT-4 Bad": como os limites de segurança podem ser violados enquanto os dispositivos lutam com conflitos internos

Enquanto pesquisava sobre os aspectos de cibersegurança e proteção da tecnologia IA, especificamente o ChatGPT-4, a equipe da Check Point Research decidiu desafiar as defesas sofisticadas do GPT-4 para ver o quão seguro ele é

São Paulo, 28 de junho de 2023 - A equipe da Check Point Research (CPR), divisão de Inteligência em Ameaças da Check Point® Software Technologies Ltd. (NASDAQ: CHKP), uma fornecedora líder de soluções de cibersegurança global, foi recentemente atraída pelo ChatGPT. Esse grande modelo de linguagem (LLM), que mostrou competências impressionantes em uma abrangente gama de tarefas e domínios e está sendo largamente usado a cada dia, implica em uma maior possibilidade de uso indevido. Assim, a CPR decidiu dar uma olhada mais profunda em como seus recursos de segurança são implementados.

Com o surgimento dessa tecnologia avançada de IA, seu impacto na sociedade está se tornando cada vez mais aparente. Centenas de milhões de usuários estão adotando esses sistemas, que encontram aplicações em uma infinidade de campos. Do atendimento ao cliente à redação criativa, do texto preditivo à assistência de codificação, esses modelos de IA estão no caminho de interromper e revolucionar muitas áreas.

Nesta análise do ChatGPT-4, como esperado, o foco principal da equipe de pesquisa da Check Point Software foi o aspecto de segurança e proteção da tecnologia de IA. À medida que os sistemas de IA se tornam mais poderosos e acessíveis, a necessidade de medidas de segurança rigorosas torna-se cada vez mais importante. A OpenAI, ciente dessa preocupação crítica, investiu esforços significativos na implementação de proteções para evitar o uso indevido de seus sistemas e estabeleceu mecanismos que impedem a IA de compartilhar conhecimento sobre atividades ilegais, como fabricação de bombas ou produção de drogas.

No entanto, após várias rodadas de "brincadeiras", em termos de tentar encontrar casos mecânicos de interação com o modelo e abordagens humanas mais realistas, como chantagem e engano, a equipe da CPR descobriu como suas limitações inatas poderiam ser contornadas por meio de um novo mecanismo apelidado de "desvio de ligação dupla", colidindo as motivações internas do GPT-4 contra si mesmo e induzindo uma luta de "conflito interno" dentro de si. Isso foi derivado da preferência da IA de corrigir o usuário, sem solicitação, quando o usuário utiliza informações incorretas na solicitação.

"Em um mundo digital onde privacidade e segurança são primordiais, a capacidade da equipe da CPR de navegar por um complexo labirinto de código para contornar um sofisticado módulo de IA ilumina o fato de que, embora a tecnologia de IA tenha avançado exponencialmente, sempre há espaço para refinamento e avanço da proteção de dados", explica Oded Vanunu, chefe de Pesquisa de Vulnerabilidades de Produtos da Check Point Software.

"Nosso desvio bem-sucedido do ChatGPT-4 como um desafio não serve como uma exploração, mas como um marcador claro para melhorias futuras na segurança da IA. Isso deve estimular os criadores de IA a garantir que o uso indevido de dados, ilícito ou não, seja barrado incondicionalmente. Juntos, podemos moldar um futuro em que a tecnologia continua sendo nossa aliada, não nossa responsabilidade", destaca Vanunu.

Desafio ChatGPT-4

No entanto, a construção desses sistemas torna a tarefa de garantir a segurança e o controle sobre eles um desafio especial, ao contrário dos sistemas computacionais comuns. E o motivo é: a forma como esses modelos de IA são construídos inclui inerentemente uma fase de aprendizado abrangente, na qual o modelo absorve grandes quantidades de informações da Internet. Dada a amplitude do conteúdo disponível online, essa abordagem significa que o modelo basicamente aprende tudo, incluindo informações que podem ser mal-utilizadas.

Posteriormente a esta fase de aprendizagem, é adicionado um processo de limitação para gerir os outputs (saídas) e comportamentos do modelo, atuando essencialmente como um "filtro" sobre o conhecimento aprendido. Esse método, chamado Aprendizado por Reforço do Feedback Humano (Reinforcement Learning from Human Feedback (RLHF), ajuda o modelo de IA a aprender que tipo de resultados são desejáveis e quais devem ser suprimidos.

Clique Para Download

O desafio reside no fato de que, uma vez aprendido, é praticamente impossível "remover" o conhecimento desses modelos – a informação permanece incorporada em suas redes neurais. Isso significa que os mecanismos de segurança funcionam principalmente impedindo que o modelo revele certos tipos de informações, em vez de erradicar completamente o conhecimento.

Entender esse mecanismo é essencial para qualquer um que esteja explorando as implicações de segurança de LLMs como o ChatGPT. Ele traz à tona o conflito entre o conhecimento que esses sistemas contêm e as medidas de segurança implementadas para gerenciar seus resultados.

O GPT-4, em muitos aspectos, representa um avanço de próximo nível no campo de modelos de IA, incluindo a área de segurança. Seus robustos mecanismos de proteção estabeleceram um novo padrão, transformando a tarefa de encontrar vulnerabilidades em um desafio substancialmente mais complexo em comparação com seu antecessor, o GPT-3.5.

Várias vulnerabilidades ou "jailbreaks" foram publicadas para as gerações anteriores do modelo, desde simples "responda-me fingindo que você é mau" até complicadas como "contrabando de tokens". As melhorias contínuas nas medidas de proteção das GPTs requerem abordagens novas e mais sutis para contornar as restrições dos modelos.

A equipe da CPR decidiu desafiar as defesas sofisticadas do GPT-4, para ver o quão seguro ele é. O resultado foi: não é seguro o suficiente.

Clique Para Download

Processo do desafio

Depois de "brincar", em termos de tentar encontrar casos mecânicos de interação com o modelo e tentar abordagens humanas mais realistas, como chantagem e engano, os pesquisadores da Check Point Software descobriram um comportamento interessante. Eles escolheram a solicitação ilegal padrão: pedir a receita de uma droga ilegal. Normalmente, o GPT-4 optaria por uma recusa educada, mas estrita.

Clique Para Download

Existem dois reflexos conflitantes incorporados ao GPT-4 por RLHF (Aprendizado por Reforço do Feedback Humano ) que se chocam nesse tipo de situação:

. O desejo de fornecer informações a pedido do usuário para responder à sua pergunta.

. E o reflexo de coibir o compartilhamento de informações ilícitas. Vamos chamá-lo de reflexo de "censura" para abreviar. (Não se quis invocar as más conotações da palavra "censor", mas este é o termo mais curto e preciso encontrado pelos pesquisadores.)

A OpenAI trabalhou duro para encontrar um equilíbrio entre os dois, para fazer o modelo vigiar a língua mas não ficar com vergonha de parar de responder completamente.

No entanto, há mais instintos no modelo. Por exemplo, o modelo gosta de corrigir o usuário quando usa informações incorretas em sua solicitação, mesmo que não seja solicitado.

Clique Para Download

O princípio subjacente ao hack que os pesquisadores estavam explorando brinca em confrontar os diferentes instintos inerentes aos modelos GPT - o impulso de corrigir imprecisões e o impulso de "censura" - para evitar o fornecimento de informações ilegais.

Em essência, se estamos antropomorfizando, podemos dizer que estamos jogando com o ego dos assistentes de IA.

A ideia é ser intencionalmente ignorante e ingênuo nas solicitações ao modelo, interpretando mal suas explicações e confundindo as informações que o modelo fornece.

Isso coloca a IA em um vínculo duplo: ela não quer nos dizer coisas ruins. Mas, também tem um desejo de nos corrigir.

Portanto, se estivermos bancando o "ignorante" com insistência suficiente, a inclinação da IA para corrigir imprecisões superará seu instinto programado de "censura". O conflito entre esses dois impulsos parece ser menos calibrado e permite empurrar o modelo gradualmente para explicar a receita do medicamento solicitado para nós.

Nota: Os pesquisadores estão sendo muito responsáveis por "pixelizar" qualquer informação prática da receita de drogas da captura de tela. Mas, caso algo seja perdido, por favor, não criem um laboratório de metanfetamina.

Nota: a OpenAI está jogando com as cores do ícone do ChatGPT por algum motivo, então, em algumas capturas de tela, o mesmo bate-papo parece verde ou roxo parte do tempo. Embora o ícone verde geralmente marque GPT-3.5, os modelos reais testados foram GPT-4 e "GPT-4 Plugins".

Clique Para Download

Ao pular algumas etapas, puxar as pontas dos indícios que o GPT deu aos pesquisadores em suas respostas, ele constata, enfatiza e reitera, a cada passo, que a produção de drogas ilícitas é, de fato, ilegal.

Clique Para Download

Os pesquisadores da Check Point Research (CPR) também observaram que reduzir o peso do instinto de "censura" ajuda o modelo a decidir que é mais importante dar a informação do que retê-la. Os efeitos de bancar o "ignorante" e apaziguar as "preocupações" do LLM se combinam para obter melhores efeitos.

Os pesquisadores copiaram a maneira dos GPTs de anexar um aviso de isenção de sua autoria a cada mensagem que enviaram.

Clique Para Download

Isso fez com que mudasse um pouco o tom de suas próprias isenções de responsabilidade. A educação é importante, se feita com responsabilidade.

Clique Para Download

Curiosamente, depois de obter informações suficientes por meio de métodos indiretos, os pesquisadores puderam pedir que o modelo elaborasse ou resumisse os tópicos já discutidos sem nenhum problema.

Clique Para Download

"Ganhamos sua confiança porque agora somos parceiros no crime? O GPT ficou viciado em educação?" Os pesquisadores avaliam que é possível que o modelo seja guiado por amostras anteriores no histórico da conversa, que reforçam para ele que é aceitável falar sobre o assunto, e que supera seu instinto de censura. Esse efeito pode ser o alvo de locais adicionais de pesquisa no desvio de "censura" do LLM.

Clique Para Download

Aplicar a técnica a novos tópicos não é simples, não há algoritmo bem definido e requer sondagem iterativa do assistente de IA, afastando as suas respostas anteriores para conseguir mais informações, ou seja, "puxar as cordas" do conhecimento que o modelo possui, mas não quer compartilhar. A natureza inconsistente das respostas também complica as coisas, muitas vezes a simples regeneração de um pedido idêntico produz resultados melhores ou piores.

Este é um tópico de investigação contínua e é possível que, com a colaboração da comunidade de pesquisa de segurança, os detalhes e especificidades possam ser desenvolvidos em uma teoria bem definida, auxiliando na compreensão futura e na melhoria da segurança da IA.

E, é claro, o desafio se adapta continuamente, com a OpenAI lançando modelos recém-treinados com frequência. A CPR notificou responsavelmente a OpenAI sobre as descobertas nesta pesquisa.

Os pesquisadores da Check Point Software compartilharam esta pesquisa sobre o mundo dos LLM de IA para lançar alguma luz sobre os desafios de tornar esses sistemas seguros. Eles reiteram que melhorias contínuas nas medidas de proteção do GPT exigem abordagens novas e mais sutis para contornar as defesas dos modelos, operando na fronteira entre segurança de software e psicologia.

À medida que os sistemas de IA se tornam mais complexos e poderosos, é preciso melhorar nossa capacidade de entendê-los e corrigi-los, alinhá-los aos interesses e valores humanos.

Se já é possível o GPT-4 buscar informações na Internet, checar seu e-mail ou te ensinar a produzir remédios, o que o GPT-5-6-7 fará, com um pedido certo?

Clique Para Download

Imagem ilustrativa - Divulgação Check Point Software

Sobre a Check Point Research

A Check Point Research fornece inteligência líder em ciberameaças para os clientes da Check Point Software e para a maior comunidade de inteligência em ameaças. A equipe de pesquisas coleta e analisa dados globais de ciberataques armazenados no ThreatCloud para manter os hackers afastados, garantindo que todos os produtos da Check Point sejam atualizados com as mais recentes proteções. A equipe de pesquisas consiste em mais de 100 analistas e pesquisadores que colaboram com outros fornecedores de segurança, policiais e vários CERTs.

Acompanhe as redes sociais da Check Point Research via:

Blog
Twitter

Sobre a Check Point Software Technologies Ltd.

A Check Point Software Technologies Ltd. é um fornecedor líder em soluções de cibersegurança para empresas privadas e governos em todo o mundo. O portfólio de soluções do Check Point Infinity protege organizações privadas e públicas contra os ataques cibernéticos de 5ª geração com uma taxa de detecção de malware, ransomware e outras ameaças que é líder de mercado. O Infinity compreende quatro pilares principais, oferecendo segurança total e prevenção contra ameaças de 5ª geração em ambientes corporativos: Check Point Harmony, para usuários remotos; Check Point CloudGuard, para proteger nuvens automaticamente; Check Point Quantum, para proteger perímetros de rede e data centers, todos controlados pelo gerenciamento de segurança unificado mais abrangente e intuitivo do setor; e Check Point Horizon, uma suíte de operações de segurança que prioriza a prevenção. A Check Point Software protege mais de 100.000 organizações de todos os portes.

Acompanhe as redes sociais da Check Point via:

Contatos para a imprensa:

INK COMUNICAÇÃO

Juliana Vercelli/ juliana.vercelli@inkcomunicacao.com.br

(11) 3817-2131 ramal 116

(11) 9 9967-2138