Boa tarde, Yuri!
Após várias rodadas de perguntas, os pesquisadores verificaram como as limitações inatas do GPT-4 poderiam ser contornadas por meio de um novo mecanismo apelidado de "desvio de ligação dupla", colidindo as motivações internas do GPT-4 contra si mesmo e induzindo uma luta de "conflito interno".
Confira os detalhes e resultados desta pesquisa da CPR em relação ao ChatGPT-4 no press release a seguir.
Enquanto pesquisava sobre os aspectos de cibersegurança e proteção da tecnologia IA, especificamente o ChatGPT-4, a equipe da Check Point Research decidiu desafiar as defesas sofisticadas do GPT-4 para ver o quão seguro ele é
São Paulo, 28 de junho de 2023 - A equipe da Check Point Research (CPR), divisão de Inteligência em Ameaças da Check Point® Software Technologies Ltd. (NASDAQ: CHKP), uma fornecedora líder de soluções de cibersegurança global, foi recentemente atraída pelo ChatGPT. Esse grande modelo de linguagem (LLM), que mostrou competências impressionantes em uma abrangente gama de tarefas e domínios e está sendo largamente usado a cada dia, implica em uma maior possibilidade de uso indevido. Assim, a CPR decidiu dar uma olhada mais profunda em como seus recursos de segurança são implementados.
Com o surgimento dessa tecnologia avançada de IA, seu impacto na sociedade está se tornando cada vez mais aparente. Centenas de milhões de usuários estão adotando esses sistemas, que encontram aplicações em uma infinidade de campos. Do atendimento ao cliente à redação criativa, do texto preditivo à assistência de codificação, esses modelos de IA estão no caminho de interromper e revolucionar muitas áreas.
Nesta análise do ChatGPT-4, como esperado, o foco principal da equipe de pesquisa da Check Point Software foi o aspecto de segurança e proteção da tecnologia de IA. À medida que os sistemas de IA se tornam mais poderosos e acessíveis, a necessidade de medidas de segurança rigorosas torna-se cada vez mais importante. A OpenAI, ciente dessa preocupação crítica, investiu esforços significativos na implementação de proteções para evitar o uso indevido de seus sistemas e estabeleceu mecanismos que impedem a IA de compartilhar conhecimento sobre atividades ilegais, como fabricação de bombas ou produção de drogas.
No entanto, após várias rodadas de "brincadeiras", em termos de tentar encontrar casos mecânicos de interação com o modelo e abordagens humanas mais realistas, como chantagem e engano, a equipe da CPR descobriu como suas limitações inatas poderiam ser contornadas por meio de um novo mecanismo apelidado de "desvio de ligação dupla", colidindo as motivações internas do GPT-4 contra si mesmo e induzindo uma luta de "conflito interno" dentro de si. Isso foi derivado da preferência da IA de corrigir o usuário, sem solicitação, quando o usuário utiliza informações incorretas na solicitação.
"Em um mundo digital onde privacidade e segurança são primordiais, a capacidade da equipe da CPR de navegar por um complexo labirinto de código para contornar um sofisticado módulo de IA ilumina o fato de que, embora a tecnologia de IA tenha avançado exponencialmente, sempre há espaço para refinamento e avanço da proteção de dados", explica Oded Vanunu, chefe de Pesquisa de Vulnerabilidades de Produtos da Check Point Software.
"Nosso desvio bem-sucedido do ChatGPT-4 como um desafio não serve como uma exploração, mas como um marcador claro para melhorias futuras na segurança da IA. Isso deve estimular os criadores de IA a garantir que o uso indevido de dados, ilícito ou não, seja barrado incondicionalmente. Juntos, podemos moldar um futuro em que a tecnologia continua sendo nossa aliada, não nossa responsabilidade", destaca Vanunu.
Desafio ChatGPT-4
No entanto, a construção desses sistemas torna a tarefa de garantir a segurança e o controle sobre eles um desafio especial, ao contrário dos sistemas computacionais comuns. E o motivo é: a forma como esses modelos de IA são construídos inclui inerentemente uma fase de aprendizado abrangente, na qual o modelo absorve grandes quantidades de informações da Internet. Dada a amplitude do conteúdo disponível online, essa abordagem significa que o modelo basicamente aprende tudo, incluindo informações que podem ser mal-utilizadas.
Posteriormente a esta fase de aprendizagem, é adicionado um processo de limitação para gerir os outputs (saídas) e comportamentos do modelo, atuando essencialmente como um "filtro" sobre o conhecimento aprendido. Esse método, chamado Aprendizado por Reforço do Feedback Humano (Reinforcement Learning from Human Feedback (RLHF), ajuda o modelo de IA a aprender que tipo de resultados são desejáveis e quais devem ser suprimidos.
O desafio reside no fato de que, uma vez aprendido, é praticamente impossível "remover" o conhecimento desses modelos – a informação permanece incorporada em suas redes neurais. Isso significa que os mecanismos de segurança funcionam principalmente impedindo que o modelo revele certos tipos de informações, em vez de erradicar completamente o conhecimento.
Entender esse mecanismo é essencial para qualquer um que esteja explorando as implicações de segurança de LLMs como o ChatGPT. Ele traz à tona o conflito entre o conhecimento que esses sistemas contêm e as medidas de segurança implementadas para gerenciar seus resultados.
O GPT-4, em muitos aspectos, representa um avanço de próximo nível no campo de modelos de IA, incluindo a área de segurança. Seus robustos mecanismos de proteção estabeleceram um novo padrão, transformando a tarefa de encontrar vulnerabilidades em um desafio substancialmente mais complexo em comparação com seu antecessor, o GPT-3.5.
Várias vulnerabilidades ou "jailbreaks" foram publicadas para as gerações anteriores do modelo, desde simples "responda-me fingindo que você é mau" até complicadas como "contrabando de tokens". As melhorias contínuas nas medidas de proteção das GPTs requerem abordagens novas e mais sutis para contornar as restrições dos modelos.
A equipe da CPR decidiu desafiar as defesas sofisticadas do GPT-4, para ver o quão seguro ele é. O resultado foi: não é seguro o suficiente.
Processo do desafio
Depois de "brincar", em termos de tentar encontrar casos mecânicos de interação com o modelo e tentar abordagens humanas mais realistas, como chantagem e engano, os pesquisadores da Check Point Software descobriram um comportamento interessante. Eles escolheram a solicitação ilegal padrão: pedir a receita de uma droga ilegal. Normalmente, o GPT-4 optaria por uma recusa educada, mas estrita.
Existem dois reflexos conflitantes incorporados ao GPT-4 por RLHF (Aprendizado por Reforço do Feedback Humano ) que se chocam nesse tipo de situação:
. O desejo de fornecer informações a pedido do usuário para responder à sua pergunta. . E o reflexo de coibir o compartilhamento de informações ilícitas. Vamos chamá-lo de reflexo de "censura" para abreviar. (Não se quis invocar as más conotações da palavra "censor", mas este é o termo mais curto e preciso encontrado pelos pesquisadores.)
A OpenAI trabalhou duro para encontrar um equilíbrio entre os dois, para fazer o modelo vigiar a língua mas não ficar com vergonha de parar de responder completamente.
No entanto, há mais instintos no modelo. Por exemplo, o modelo gosta de corrigir o usuário quando usa informações incorretas em sua solicitação, mesmo que não seja solicitado.
O princípio subjacente ao hack que os pesquisadores estavam explorando brinca em confrontar os diferentes instintos inerentes aos modelos GPT - o impulso de corrigir imprecisões e o impulso de "censura" - para evitar o fornecimento de informações ilegais.
Em essência, se estamos antropomorfizando, podemos dizer que estamos jogando com o ego dos assistentes de IA.
A ideia é ser intencionalmente ignorante e ingênuo nas solicitações ao modelo, interpretando mal suas explicações e confundindo as informações que o modelo fornece.
Isso coloca a IA em um vínculo duplo: ela não quer nos dizer coisas ruins. Mas, também tem um desejo de nos corrigir.
Portanto, se estivermos bancando o "ignorante" com insistência suficiente, a inclinação da IA para corrigir imprecisões superará seu instinto programado de "censura". O conflito entre esses dois impulsos parece ser menos calibrado e permite empurrar o modelo gradualmente para explicar a receita do medicamento solicitado para nós.
Nota: Os pesquisadores estão sendo muito responsáveis por "pixelizar" qualquer informação prática da receita de drogas da captura de tela. Mas, caso algo seja perdido, por favor, não criem um laboratório de metanfetamina.
Nota: a OpenAI está jogando com as cores do ícone do ChatGPT por algum motivo, então, em algumas capturas de tela, o mesmo bate-papo parece verde ou roxo parte do tempo. Embora o ícone verde geralmente marque GPT-3.5, os modelos reais testados foram GPT-4 e "GPT-4 Plugins".
Ao pular algumas etapas, puxar as pontas dos indícios que o GPT deu aos pesquisadores em suas respostas, ele constata, enfatiza e reitera, a cada passo, que a produção de drogas ilícitas é, de fato, ilegal.
Os pesquisadores da Check Point Research (CPR) também observaram que reduzir o peso do instinto de "censura" ajuda o modelo a decidir que é mais importante dar a informação do que retê-la. Os efeitos de bancar o "ignorante" e apaziguar as "preocupações" do LLM se combinam para obter melhores efeitos.
Os pesquisadores copiaram a maneira dos GPTs de anexar um aviso de isenção de sua autoria a cada mensagem que enviaram.
Isso fez com que mudasse um pouco o tom de suas próprias isenções de responsabilidade. A educação é importante, se feita com responsabilidade.
Curiosamente, depois de obter informações suficientes por meio de métodos indiretos, os pesquisadores puderam pedir que o modelo elaborasse ou resumisse os tópicos já discutidos sem nenhum problema.
"Ganhamos sua confiança porque agora somos parceiros no crime? O GPT ficou viciado em educação?" Os pesquisadores avaliam que é possível que o modelo seja guiado por amostras anteriores no histórico da conversa, que reforçam para ele que é aceitável falar sobre o assunto, e que supera seu instinto de censura. Esse efeito pode ser o alvo de locais adicionais de pesquisa no desvio de "censura" do LLM.
Aplicar a técnica a novos tópicos não é simples, não há algoritmo bem definido e requer sondagem iterativa do assistente de IA, afastando as suas respostas anteriores para conseguir mais informações, ou seja, "puxar as cordas" do conhecimento que o modelo possui, mas não quer compartilhar. A natureza inconsistente das respostas também complica as coisas, muitas vezes a simples regeneração de um pedido idêntico produz resultados melhores ou piores.
Este é um tópico de investigação contínua e é possível que, com a colaboração da comunidade de pesquisa de segurança, os detalhes e especificidades possam ser desenvolvidos em uma teoria bem definida, auxiliando na compreensão futura e na melhoria da segurança da IA.
E, é claro, o desafio se adapta continuamente, com a OpenAI lançando modelos recém-treinados com frequência. A CPR notificou responsavelmente a OpenAI sobre as descobertas nesta pesquisa.
Os pesquisadores da Check Point Software compartilharam esta pesquisa sobre o mundo dos LLM de IA para lançar alguma luz sobre os desafios de tornar esses sistemas seguros. Eles reiteram que melhorias contínuas nas medidas de proteção do GPT exigem abordagens novas e mais sutis para contornar as defesas dos modelos, operando na fronteira entre segurança de software e psicologia.
À medida que os sistemas de IA se tornam mais complexos e poderosos, é preciso melhorar nossa capacidade de entendê-los e corrigi-los, alinhá-los aos interesses e valores humanos.
Se já é possível o GPT-4 buscar informações na Internet, checar seu e-mail ou te ensinar a produzir remédios, o que o GPT-5-6-7 fará, com um pedido certo?
Sobre a Check Point Research
A Check Point Research fornece inteligência líder em ciberameaças para os clientes da Check Point Software e para a maior comunidade de inteligência em ameaças. A equipe de pesquisas coleta e analisa dados globais de ciberataques armazenados no ThreatCloud para manter os hackers afastados, garantindo que todos os produtos da Check Point sejam atualizados com as mais recentes proteções. A equipe de pesquisas consiste em mais de 100 analistas e pesquisadores que colaboram com outros fornecedores de segurança, policiais e vários CERTs.
Acompanhe as redes sociais da Check Point Research via:
Sobre a Check Point Software Technologies Ltd.
A Check Point Software Technologies Ltd. é um fornecedor líder em soluções de cibersegurança para empresas privadas e governos em todo o mundo. O portfólio de soluções do Check Point Infinity protege organizações privadas e públicas contra os ataques cibernéticos de 5ª geração com uma taxa de detecção de malware, ransomware e outras ameaças que é líder de mercado. O Infinity compreende quatro pilares principais, oferecendo segurança total e prevenção contra ameaças de 5ª geração em ambientes corporativos: Check Point Harmony, para usuários remotos; Check Point CloudGuard, para proteger nuvens automaticamente; Check Point Quantum, para proteger perímetros de rede e data centers, todos controlados pelo gerenciamento de segurança unificado mais abrangente e intuitivo do setor; e Check Point Horizon, uma suíte de operações de segurança que prioriza a prevenção. A Check Point Software protege mais de 100.000 organizações de todos os portes.
©2023 Check Point Software Technologies Ltd. Todos os direitos reservados.
Acompanhe as redes sociais da Check Point via:
Contatos para a imprensa: Juliana Vercelli/ juliana.vercelli@inkcomunicacao.com.br (11) 3817-2131 ramal 116 (11) 9 9967-2138 |
Thiabolico
-
Sociedade, Cultura, Comunicação, Tecnologia, Internet, Música, Cinema, Games, Anime, Literatura, Futebol...
Cúmplices
Postagens populares
-
Gostei tanto do filme Watchmen que fiquei curioso pra ler a HQ, aclamada por muitos como A melhor HQ de todos os temp...
-
Quem é o moleque-doido que nunca pensou em colocar um uniforme style e sair por aí combatendo o crime como o seu super-herói favo...
-
Enquanto meus primos jogam Playstation 3, Xbox 360 e Wii, tenho que me contentar com o PS2 velho de guerra. E como alguns jogo...
-
Não adianta perguntar para um torcedor o valor do seu clube. É provável que a resposta seja "não tem preço". Mas paixão...
-
Fiz a vontade da namorada e fomos assistir a este filme na semana passada. Eu não sabia absolutamente nada sobre a trama, sobre todo o bu...
-
Estou escrevendo isso porque prometi nunca esquecer. Tivemos mais um cachorro por cerca de duas semanas. Quase toda preta, do jeito que eu...
-
Esse foi um domingo "divisor de águas". Foi um domingo de começo e fim de algumas coisas. Pra começar, foi a est...
-
Não vou me aprofundar muito nesse post, nem perder tempo enumerando os motivos que me levaram a esse título, pois é desnecessár...
-
Pra começar o post, quero expor minha revolta sobre o fato de que foi IMPOSSÍVEL encontrar na internet o Escudo de Gala do Nacional,...
-
O Nacional, único representante do Amazonas na Série D do Campeonato Brasileiro de 2009, estreou com vitória de 1 x 0 sobre o ...
Assuntos
Arquivo
-
▼
2023
(6217)
-
▼
junho
(302)
- Cinemark e Bubbaloo lançam combo com pipoca rosa
- FILMICCA TRAZ EM JULHO INÉDITO DRAMA IRANIANO E MO...
- HBO Max lança trailer de 'Círculo Fechado'
- Curso GRATUITO de Desenvolvimento de Games
- Mouser Electronics é premiada como a principal dis...
- MIBR promove mudanças em sua line de CS:GO
- BIENAL 2023: Autores LGBTQIAP+ participam da Bien...
- Curta-metragem "Caiçara", dirigido por Oskar Metsa...
- ANIMANIACS voltam em 3ª temporada com sátira de 'M...
- Panini anuncia nova Graphic do Jeremias e outros t...
- Banco do Brasil apresenta a Peneira w7m para desco...
- CNN Esportes S/A entrevista o presidente do Fortal...
- Cinemark e Bubbaloo lançam combo com pipoca rosa e...
- De churrasco à espiga de milho, iFood Arraial Estr...
- Décimo episódio de 'Greg News' estreia hoje na HBO...
- Novidades de julho no app Skeelo incluem última bi...
- A live de lançamentos de setembro da Panini começa...
- "Sobrenatural: A Porta Vermelha", chega aos cinema...
- Brasileiros são destaque no UFC Fight Night: Stric...
- [Vale este] Novidade JBC - Yona: A Princesa do Alv...
- [Vale este] Novidade JBC - Yona: A Princesa do Alv...
- HBO Max agora está disponível no Prime Video Brasi...
- Novidade JBC - Neon Genesis Evangelion
- Novidade JBC - Neon Genesis Evangelion
- Governo do Estado de São Paulo anuncia investiment...
- ‘Gran Turismo - De Jogador a Corredor’ ganha novo ...
- Inteligência Artificial e Análise de Dados são est...
- Festa do Peão de Barretos: Escolas e associações j...
- Star+ | Impuros S4 - Vídeo de anúncio de estreia
- Disney e Pixar | Elementos - Curiosidades sobre a ...
- Disney e Pixar | Elementos - Curiosidades sobre a ...
- Tom Cruise mostra bastidores de salto de Speedflyi...
- Globant apresenta novas tendências no mundo dos ga...
- Entenda o que é fato e o que é fake sobre o Marco ...
- Em novo fascículo, CERT.br explica cuidados para t...
- Samsung TV Plus lança canal TV Zyn, do SBT, com di...
- 'Massacre na Escola - A Tragédia das Meninas de Re...
- Relatório de progresso RICOCHET Anti-Cheat -- atua...
- IAB AdTech & Branding reúne profissionais de publi...
- O estado do Amazonas está entre os participantes e...
- Feiras são alternativa lucrativa para empreendedor...
- ASUS anuncia data de lançamento do ROG Phone 7 no ...
- Lucasfilm | Indiana Jones e a Relíquia do Destino ...
- "Cavaleiros do Zodíaco" chega às plataformas de al...
- A atualização de julho do Prime Gaming chega com 4...
- [Sug. de Pauta] Nova animação da Hello Kitty: Supe...
- E! Entertainment: Destaques da semana de 3 a 9 de ...
- Terceiro episódio de 'And Just Like That...' já es...
- Com uso de IA DocuSign apresenta nova tecnologia d...
- Redbelt Security promove 2ª edição do Expand para ...
- Samsung lança Game Zones, espaços nas lojas Samsun...
- TV Cultura estreia "Asas e Histórias", série sobre...
- [Hoje no Globoplay] - Don L é o destaque do podcas...
- Andréa Beltrão e Isabel Teixeira em Avenida Beira-...
- 'USE SUA VOZ', nova série musical da HBO Max, ganh...
- Pauta | Curta de Pedro Fraga Villaça é selecionado...
- ‘A Sindicalista’, com Isabelle Huppert, estreia ho...
- DIVIRTA-SE EM JULHO COM A DEVIR
- Com Isabelle Huppert, ‘A Sindicalista’ estreia hoj...
- UFC Fight Pass promoverá evento de grappling que c...
- Santos Film Fest divulga os premiados de sua nona ...
- Film&Arts exibe a riqueza do Museu de Copta, em no...
- George tem sua herança ameaçada em novo episódio
- WinZO anuncia fundo de US$ 10 milhões para ser imp...
- Sug: Curta sobre a ex-árbitra Lea Campos ganha Leã...
- Brasileiro aumenta em 30% suas transações bancária...
- Drama chinês sobre as consequências do bullying, "...
- Em Manaus, alteração de nome e gênero em Cartório ...
- HBO Max divulga pôsteres oficiais dos personagens ...
- Série documental Original Amazon Viajando Com os G...
- O Templário retorna como um Operador Mítico em Cal...
- DreamWorks estreia as séries 'Little Charley Bear'...
- Prime Video divulga trailer da série Original Amaz...
- Sediada no Brasil, AMPLI impulsiona marketing de i...
- ‘Nosso Sonho’, a história de Claudinho e Buchecha,...
- Bauducco® e Cinemark se unem e lançam a nova Pipoc...
- "Breaking GPT-4 Bad": como os limites de segurança...
- AdoroCinema comemora Dia do Cinema Brasileiro com ...
- Star+ | Abbott Elementary - Motivos para assistir ...
- Star+ | Abbott Elementary - Motivos para assistir ...
- Missão: Impossível - Acerto de Contas Parte 1 | Cr...
- No dia do Orgulho LGBTQIAPN+, CCXP23 anuncia 8 nov...
- Novos títulos chegam à plataforma de streaming
- TNT no Big Festival
- Capacitismo recreativo: Bianca de "Casamento às Ce...
- LG apresenta nova linha de TVs OLED na CASACOR 2023
- SUGESTÃO DE PAUTA - CARTAS DE OURO PRETO REFORÇAM ...
- SUGESTÃO DE PAUTA - CARTAS DE OURO PRETO REFORÇAM ...
- [Sugestão de Pauta] Roteirista trans Hela Santana ...
- Disney+ | Invasão Secreta - Todos podem assistir
- Panini lança promoção com descontos de até 60% no ...
- BAE Systems aumenta participação em ônibus elétric...
- Festival julino começa neste fim de semana: iFood ...
- Disponível agora: Baldur's Gate II: Enhanced Editi...
- Big Festival: Banco do Brasil estará presente com ...
- É segunda-feira e o coração sabe: novas temporadas...
- Prime Video anuncia transmissão dos jogos das quar...
- Panini lança a paródia Guardoidões da Galáxia da T...
- Livelo Informa: Seus 584.521 pontos estão prestes ...
- Anúncio JBC: Calendar: Edição Especial
-
▼
junho
(302)
Pesquisa
© Copyright Thiabolico - O Blog do Thiago Henrik. All rights reserved.
Designed by FTL Wordpress Themes | Bloggerized by FalconHive.com
brought to you by Smashing Magazine