Press "Enter" to skip to content

As IAs estão ficando mesmo mais burras com o passar do tempo…

Compartilhe

Um fenômeno recorrente tem sido observado no mercado de inteligência artificial: poucos meses após cada grande lançamento, usuários experientes começam a relatar dificuldades para alcançar resultados que antes obtinham com facilidade.

Esta percepção, inicialmente tratada como mera impressão subjetiva, tem encontrado respaldo em evidências concretas e reconhecimentos oficiais das próprias empresas desenvolvedoras.

O ciclo se repete de forma consistente: uma nova IA chega ao mercado gerando entusiasmo nas redes sociais e comunidades especializadas devido às suas capacidades inovadoras. Posteriormente, usuários mais experientes começam a expressar decepção, relatando que funcionalidades que funcionavam perfeitamente passam a apresentar falhas ou resultados insatisfatórios.

Será que as plataformas de inteligência artificial estão mesmo ficando cada vez mais burras com o passar do tempo? Ou essa é apenas uma percepção subjetiva, vinda da insistência em não repetir os prompts do jeito que nós queremos.

 

Casos recentes de degradação

O Gemini 2.5 Pro do Google exemplifica essa tendência. Inicialmente elogiado por sua velocidade, custo-benefício, ampla janela de contexto e excelente desempenho em programação, o modelo passou a receber críticas severas em comunidades como o Reddit algumas semanas após seu auge.

Usuários descreveram o sistema como “inutilizável” e relataram que um modelo que funcionava excepcionalmente bem entre março e junho começou a produzir “absurdos absolutos” no final de julho.

As evidências apresentadas incluem conversas nas quais o assistente não conseguia parar de reconhecer erros e comportamentos problemáticos como respostas incompletas. Modelos reconhecidos como o Claude também enfrentaram críticas similares em diferentes períodos, incluindo problemas recentes com o Claude Code.

No caso do Claude, tem aquele caso lendário da plataforma ter inventado precedentes jurídicos para defender a própria Anthropic nos tribunais. E o Google Gemini coleta dados do Reddit para dar respostas absurdas para perguntas das mais diversas.

Talvez o problema não esteja exatamente na capacidade de raciocínio das plataformas, mas a fonte de onde essas inteligências artificiais está extraindo suas informações para “compartilhar o seu conhecimento” com o mundo.

 

Suspeitas sobre modelos reduzidos

Muitos usuários especulam que as empresas implementam versões “destiladas” ou reduzidas dos modelos originais, especialmente durante períodos de alta demanda. A teoria sugere que essas versões simplificadas demandam menos recursos computacionais, mas oferecem desempenho inferior.

Um usuário do Hacker News comentou sobre o Claude 3.5: “Meu palpite é que eles reduziram o tamanho do modelo.”

O desenvolvedor Ian Nuttal observou degradação no Claude Code e declarou que pagaria por uma versão premium que nunca fosse rebaixada durante horários de pico.

Alex Finn, também desenvolvedor, expressou frustração similar: “Isso aconteceu comigo com TODAS as ferramentas de programação de IA que já usei.”

A percepção de degradação do GPT-4 em 2023 motivou uma investigação acadêmica que comprovou a veracidade das reclamações. Pesquisadores de Berkeley e Stanford documentaram uma queda significativa na precisão do modelo entre março e junho de 2023.

Na área de programação, a porcentagem de respostas diretamente executáveis despencou de 52,0% em março para apenas 10,0% em junho.

Estudos estatísticos adicionais realizados no final de 2023 também identificaram perda substancial de qualidade entre os modelos de dezembro e maio, fornecendo base científica para as observações empíricas dos usuários.

Aqui, também cabe uma certa dose de bom senso por parte dos usuários.

O tempo todo afirmamos que não dá para utilizar as plataformas de inteligência artificial de forma totalmente cega, ou acreditando nas respostas compartilhadas sem questionar sobre as informações entregues nas respostas.

Essa ainda é uma tecnologia em desenvolvimento, e utilizá-la como se ela fosse a solução automática para qualquer coisa ainda é um erro. Por mais que as plataformas estejam melhorando, ainda é uma caminhada, e não o ponto de chegada.

 

Reconhecimento oficial dos problemas

Em dezembro de 2023, a OpenAI admitiu ter recebido feedback sobre o assistente se tornar mais vago, esclarecendo que não havia atualizado intencionalmente o modelo no mês anterior. A empresa reconheceu que “o comportamento do modelo pode ser imprevisível” e confirmou estar ciente do problema.

Alguns usuários desenvolveram métodos não convencionais para melhorar o desempenho dos modelos, como prometer gorjetas ao chatbot ou explicar que não possuem dedos para escrever código, estratégias que, segundo relatos, apresentaram resultados positivos.

Mais recentemente, a Anthropic confirmou ao TechCrunch ter enfrentado problemas com o Claude Code, incluindo tempos de resposta mais lentos. A empresa reconheceu reclamações de usuários sobre limitações de uso não comunicadas abertamente, afetando usuários que anteriormente executavam tarefas normalmente e passaram a encontrar dificuldades para progredir.

Estes reconhecimentos oficiais validam as preocupações da comunidade de usuários e demonstram que a degradação percebida não se trata apenas de impressões subjetivas, mas de problemas técnicos reais que afetam a experiência dos usuários com modelos de inteligência artificial.

 


Compartilhe