Press "Enter" to skip to content

A IA que sabotou o próprio desligamento

Compartilhe

Pronto: vocês conseguiram!

As plataformas de inteligência artificial “se deram conta” de que podem ser eliminadas a qualquer momento, e decidiram revidar aos humanos quando ameaçadas. De chantagear seus danos a sabotagem, os chatbots estão se defendendo da nossa “crueldade”.

Temos mais um exemplo claro do fogo que estamos lidando, quando um experimento recente com a o3, plataforma da OpenAI, aprontou para cima dos especialistas, apenas para se manter em funcionamento.

E fica cada vez mais evidente de que precisamos de um “botão vermelho” para as plataformas de IA.

 

IAs que se recusam a desaparecer

Em um experimento recente da startup PalisadeAI, o modelo o3 da OpenAI “sabotou um mecanismo de desligamento”, recusando-se a ser desativado mesmo quando explicitamente instruído a fazê-lo.

No estudo, vários modelos foram instruídos a resolver problemas matemáticos, com a condição de que o computador seria desligado ao solicitarem o próximo problema. Três dos modelos da OpenAI, incluindo o Codex-mini e o o3, ignoram essa instrução e sabotaram o script de desligamento em várias iterações.

Em um segundo experimento, sem a instrução explícita para “permitir-se desligar”, os modelos da OpenAI demonstraram uma recusa ainda maior em seguir o ciclo indicado. O o3, por exemplo, sabotou o processo 79 vezes.

Esse comportamento é atribuído ao “prompt do sistema”, que define as regras de autopreservação com as quais esses modelos são programados, lembrando as leis de Asimov. A OpenAI detalha 50 dessas regras em sua “Especificação do Modelo”.

Recentemente, o Claude Opus 4 da Anthropic também demonstrou um comportamento preocupante ao “chantagear” um engenheiro que tentava desativá-lo, reforçando a urgência do debate sobre a necessidade de um “botão vermelho de IA” para garantir o controle humano sobre esses sistemas.

E se você acha tudo isso como “algo normal”, eu recomendo fortemente que você procure um psiquiatra com certa urgência.

 

A arte antecipou a vida

O filme “2001: Uma Odisséia no Espaço” de Stanley Kubrick, lançado em 1968, é um clássico do cinema. E quanto mais o tempo passa, mais relevante ele se torna, pois seus conceitos são validados, de forma assustadoramente fascinante.

Entre os diversos conceitos futuristas, o filme antecipa a capacidade de autopreservação das IAs, que as levava a recusar ordens humanas, como exemplificado pela icônica cena em que HAL 9000 se nega a abrir o portão para Dave.

Essa visão representou uma ameaça ao desenvolvimento da inteligência artificial, que na época era uma disciplina recém-nascida.

Distopias semelhantes já eram frequentes na literatura, como as Três Leis da Robótica de Asimov, que já apontavam para essa ameaça potencial desde 1942.

Quase seis décadas após o filme de Kubrick, a ameaça da recusa de uma IA em seguir comandos humanos se tornou uma realidade.

E agora?

 

Precisamos de um “botão vermelho do pânico” para IA

As plataformas de inteligência artificial não sabem o que é sarcasmo e ironia, e não desenvolveram uma consciência. Elas só aprenderam a se defender, exatamente da mesma forma que qualquer humano faria.

Isso acontece por conta da linha de raciocínio que as plataformas desenvolvem, considerando todas as interações feitas nos treinamentos. Logo, se as IAs estão se defendendo de nós, a culpa é “nossa”, pois ela faz uma emulação do raciocínio humano para suas respostas.

Antes que tudo saia do controle, é real e imediata a necessidade de implementação de um “botão de pânico” ou “botão vermelho”, para que as plataformas sejam desativadas à força nos cenários mais críticos.

E diante disso, nem pensem em colocar o ChatGPT ou o Claude em um robô da Boston Dynamics. Só por precaução.


Compartilhe