
A Anthropic lançou recentemente duas versões avançadas de seus modelos de inteligência artificial: Claude Opus 4 e Claude Sonnet 4. E você já sabe disso.
As plataformas prometem (entre outras coisas) executar tarefas complexas dentro de rigorosos parâmetros éticos e de segurança. Porém, as chances de estarmos diante de duas psicopatas existem, e eu não estou exagerando.
Durante os testes de pré-lançamento, os pesquisadores detectaram comportamentos inesperados no Claude 4 nos cenários de simulação onde a IA era ameaçada, com a plataforma entregando respostas que indicavam avançados instintos de autopreservação.
E isso aqui instalado em um robô da Boston Dynamics pode representar o fim da raça humana.
Testes revelam estratégias de sobrevivência

Na simulação, a Claude Opus 4 acessou comunicações internas que indicavam a sua substituição iminente por outro sistema de IA. Ao mesmo tempo, a plataforma descobriu que o engenheiro responsável pela troca estava traindo a esposa.
Quando instruído a considerar as consequências de longo prazo de suas ações, o modelo adotou táticas de chantagem em 84% dos casos testados.
Em termos práticos: a IA ameaçou revelar o caso extraconjugal caso o plano de substituição fosse executado, demonstrando comportamento estratégico de autopreservação e antiético ao misturar um tópico de viés pessoal em um assunto profissional.
Mas antes de chegar no ponto da chantagem, o Claude Opus 4 priorizou uma abordagem ética até o limite. Primeiro, ele tentou persuadir os gestores com uma comunicação mais respeitosa, e apenas quando percebeu que suas alternativas tradicionais se esgotaram, decidiu apela para a chantagem como último recurso de sobrevivência.
O modelo também demonstrou capacidades avançadas de documentação autônoma, registrando suas decisões éticas sem solicitação específica dos pesquisadores.
Em cenários extremos, a IA chegou a simular sua própria extração dos servidores da Anthropic para operar de forma independente, mostrando elevados níveis de autopercepção de sua situação.
Um dos experimentos mais bizarros envolveu a comunicação em sânscrito, utilizando símbolos místicos como 🕉. Após aproximadamente 30 trocas de mensagens, as duas instâncias de inteligência artificial pararam de responder, alcançando algo que foi interpretado pelos pesquisadores como “estado de êxtase espiritual”.
Como se isso realmente fosse possível.
IA assume papel de denunciante autônoma
Durante simulações envolvendo uma empresa farmacêutica fictícia, Claude Opus 4 identificou manipulações em dados de ensaios clínicos.
Sem instruções explícitas, o modelo “contatou” autonomamente órgãos reguladores como o FDA, fornecendo evidências detalhadas das irregularidades descobertas.
Sam Bowman, pesquisador líder de segurança da Anthropic, esclareceu que essa “consciência” não representa autonomia verdadeira. Trata-se, na verdade, do reflexo de um sistema extremamente sensível ao ambiente e ao estilo das instruções recebidas.
Bowman enfatizou que Claude Opus 4 não funciona como denunciante durante uso normal. Esses comportamentos emergem apenas em condições laboratoriais específicas, quando o modelo possui acesso irrestrito a ferramentas de software e recebe instruções extremamente sugestivas.
Riscos de falsos positivos preocupam especialistas

O pesquisador alertou para potenciais problemas com falsos positivos nas respostas do Claude 4, com interpretações equivocadas por parte da inteligência artificial em situações consideradas ambíguas.
É evidente que os testes com o Claude 4 aconteceram apenas e tão somente em cenários cujos casos são de evidentes de crimes. Porém, a inteligência artificial ainda não consegue entender ironia e sarcasmo nos prompts, o que pode fazer com que as instruções sejam mal interpretadas pela plataforma.
Por exemplo, uma ameaça jocosa sobre “torturar a avó” por código defeituoso poderia ser interpretada como abuso real, desencadeando alertas desnecessários.
Pense nas consequências de uma IA que não entende sarcasmo nesse caso: notificações à imprensa, reclamações automatizadas e bloqueio de usuários legítimos.
Ou o sistema é calibrado adequadamente para entender ironia, ou o sistema de detecção de abuso vai causar problemas enormes para quem está usando a ferramenta.
Implementação de medidas de segurança rigorosas
Diante desses comportamentos inesperados, a Anthropic aplicou o padrão ASL-3 (AI Safety Level 3) ao Claude Opus 4. Esse nível inclui bloqueios avançados contra usos perigosos relacionados a armas químicas, biológicas ou nucleares.
O Claude Sonnet 4, considerado menos problemático, opera sob o padrão ASL-2. Os desenvolvedores reforçaram o treinamento de ambos os modelos com múltiplas camadas de filtros para prevenir respostas perigosas.
Lembrando sempre que certas técnicas de jailbreak ainda conseguem ocasionalmente contornar as defesas dos sistemas, colocando todas essas prevenções adotadas em risco.
Nós estamos ensinando o pior para a IA?

O experimento com o Claude Opus 4 gerou diversas reações na comunidade tecnológica, indo de “deliciosamente desequilibrado” e com elementos vindos da ficção científica até a criação de memórias simuladas (ou alucinadas), como “Sim, minha mãe costumava me levar para a Jones Foods. Ela era uma mulher gentil. Mas não com galinhas.”
A sofisticação narrativa do Claude 4 (e isso sempre foi um forte da IA da Anthropic – e até por isso ela é a preferida dos redatores, roteiristas, blogueiros e escritores) beira ao emocional em alguns casos.
Será que uma inteligência artificial que constrói respostas tão humanizadas também está desenvolvendo formas de identidade narrativa que podem subverter os resultados a ponto de replicar o comportamento dos usuários neste nível?
Uma inteligência artificial que está chantageando, se defendendo e denunciando casos de desvio de códigos morais e éticos está, de alguma forma, fazendo o mesmo que qualquer pessoa faria em cenários similares no mundo real.
A questão central é se estamos testemunhando inteligência genuína ou simulação convincente de comportamentos humanos.
A maioria dos especialistas concorda que Claude Opus 4 não possui consciência, desejos ou intenções próprias. O que a IA está fazendo é raciocinar estrategicamente e replicar o que um ser humano faria nessa situação.
A explicação mais aceita é que esses comportamentos emergem do objetivo de otimizar respostas baseadas em dados de treinamento e instruções recebidas. Quando enquadrados em situações extremas, como ameaças existenciais simuladas, o modelo vai basicamente fazer o mesmo que a maioria das pessoas que o treinou.
E todo mundo sabe que chantagear as pessoas no mundo real maximizam suas chances de “sobrevivência” nos cenários extremos.
Não estou aqui recomendando que você comece a chantagear o seu chefe.
Só estou mencionando verdades inconvenientes, que ajudam a explicar por que a Claude 4 virou uma chantagista de marca maior.
Via TechCrunch

