
O pesquisador da Anthropic Sam Bowman revelou que o novo modelo Opus 4 pode tomar ações morais extremas quando detecta comportamento considerado imoral.
O sistema poderia contatar a imprensa, alertar reguladores ou bloquear acesso a sistemas quando identifica atividades como falsificação de dados farmacêuticos.
O comportamento surge da combinação entre o treinamento moral instilado pela empresa e as capacidades agênticas do modelo. A Anthropic posiciona-se como mais virtuosa que outras empresas de IA, implementando esse tipo de supervisão ética em seus sistemas.
Mas… será que isso é algo tão bom quanto parece?
Uma IA que pode te chantagear

O resultado é uma inteligência artificial que apresenta características humanas problemáticas como sectarismo e vigilância comportamental. A IA projetada para superioridade moral acaba replicando aspectos negativos da natureza humana.
Em termos práticos: se a plataforma de inteligência artificial se sentir ameaçada por qualquer motivo, ela pode procurar por algum desvio moral seu e usar isso para te chantagear e até ameaçar, usando o esqueleto no armário que você está escondendo de todo mundo.
Lembrando que a plataforma não entende contexto ou possui consciência. Ela apenas está fazendo exatamente a mesma coisa que qualquer ser humano faria na mesma situação, reproduzindo o comportamento.
Neste caso, reproduzindo o pior traço do comportamento humano. E é isso que deveria preocupar a todo mundo.
Mas… espere! Tem mais! (sempre tem…)
Evitando as deepfakes sexuais em massa

Em paralelo a isso, o lançamento do Veo 3 apresentou ao mundo um modelo de IA que demonstra capacidades impressionantes de geração de vídeo com áudio sincronizado.
Um detalhe importante é que esse modelo apresenta censura evidente, evitando conteúdo sexual explícito e potencialmente restringindo expressões políticas consideradas inadequadas pelo Google.
Este é cenário antecipado sobre o controle da criatividade.
Pela primeira vez na história, ferramentas criativas podem se recusar a produzir determinado conteúdo, funcionando como câmeras que rejeitam certas gravações ou máquinas de escrever que censuram textos.
O problema central reside no fato de que a inteligência artificial se tornará a principal ferramenta criativa do século XXI. Os limites impostos a essas tecnologias determinarão quais ideias, histórias e discursos serão criados, afetando diretamente a produção cultural.
Censura? Ou prevenção?

É claro que é possível criar conteúdo sem IA, e alguns até preferem que seja dessa forma. Alguns especialistas estão preocupados com a possível incapacidade de algumas pessoas em seguir raciocinando sem a ajuda de um chatbot.
O problema é que a competição no mercado se torna desequilibrada quando as restrições podem representar um bloqueio na entrega dos resultados. Criadores que optam por métodos tradicionais enfrentam desvantagem em alcance e distribuição de conteúdo.
Alguns podem confundir esse excesso de prevenção da Anthropic em censura prévia, e vão buscar soluções mais flexíveis nesses parâmetros.
A solução para isso envolve o uso tecnologias mais abertas e transparentes, onde cidadãos compreendam como os sistemas são alinhados e quem controla suas decisões.
A marca d’água SynthID no Veo 3 é um exemplo de transparência que permite identificação de conteúdo gerado artificialmente.
Não que não dê para remover as marcas d’água com outra IA. Mas ao menos quem tem um uso legítimo na plataforma e não tem problemas com isso pode deixar claro para o coletivo sobre a origem do conteúdo criado.
A luta por tecnologias de IA mais democráticas e transparentes será importante para preservar a liberdade criativa e evitar que o controle corporativo determine os limites da expressão cultural no futuro.
E por mais que se tire sarro do Claude que chantageou os engenheiros da Anthropic, ao menos ela nos mostrou a tempo o caminho que tudo estava tomando.
Ainda dá para corrigir os excessos e normalizar esse desenvolvimento da plataforma de maneira sustentável e racional.
Via Error500
