Por que o ChatGPT está ficando cada vez mais burro?

Compartilhe

Um estudo recente realizado por pesquisadores das prestigiadas Universidades de Stanford e da Califórnia em Berkeley ligou o sinal de alerta.

As conclusões desse estudo apontaram que tanto o modelo ChatGPT, amplamente utilizado e disponível gratuitamente, quanto o GPT-4, presente no ChatGPT Plus e no Bing Chat, apresentaram uma notória piora em seu desempenho geral.

O grande mistério aqui é: por que o ChatGPT está ficando cada vez mais burro? Ainda não há uma explicação racional para isso.

O que diz os estudos realizados?

Os testes foram minuciosos, testando as habilidades de ambos os modelos de Inteligência Artificial em diversas frentes: resolução de problemas matemáticos, raciocínio visual, códigos e até mesmo a resposta a questões delicadas. O objetivo era traçar uma análise comparativa entre as versões de março de 2023 e junho de 2023.

O resultado mais surpreendente foi o desempenho de GPT-4 na resolução de um simples problema matemático: determinar se o número 17077 é um número primo. Ao que tudo indica, a tarefa que deveria ser trivial para qualquer modelo de IA, não foi tão fácil assim para o modelo de chatbot mais avançado da OpenAI.

Se em março ele acertava 97,6% das vezes, em junho sua precisão desabou para meros 2,4%. Por outro lado, GPT-3.5 apresentou uma melhora considerável, passando de 7,4% de precisão em março para 86,8% em junho. E esse contraste é um verdadeiro mistério para os pesquisadores.

GPT-4 mais burro, menos comunicativo e gera menos códigos

A diferença no tamanho das respostas também chamou a atenção. O GPT-4 se tornou menos falante, gerando respostas curtas, com apenas 3,8 caracteres em junho, uma grande queda em relação aos 821,2 caracteres em março. Em contrapartida, GPT-3.5 revelou um aumento de 40% no tamanho de suas respostas, sugerindo que cada modelo seguiu caminhos distintos em sua evolução.

Outro aspecto explorado foi a capacidade de resposta dos modelos a perguntas sensíveis e a geração de código. GPT-4 demonstrou uma clara diminuição na resposta a questões delicadas, respondendo apenas 5% das perguntas sensíveis em junho, contra 21% em março. Já GPT-3.5 aumentou sua interação em junho, respondendo a 8% dessas perguntas.

Quando se trata de geração de código, ambas as versões dos modelos sofreram queda na eficiência. GPT-4 viu o percentual de códigos gerados diretamente executáveis cair de 52% em março para 10% em junho, enquanto GPT-3.5 experimentou uma redução de 22% para 2% no mesmo período.

Ninguém consegue explicar o que está acontecendo

Enquanto os pesquisadores se esforçavam para entender as razões por trás dessas mudanças, a comunidade de usuários do ChatGPT não esconde sua perplexidade em relação à qualidade do modelo. A percepção geral é de que a performance de ChatGPT tem decaído, gerando debates em fóruns online.

Diante das críticas, a OpenAI negou veementemente qualquer degradação intencional em sua tecnologia. Segundo Peter Welinder, um dos diretores da empresa, é possível que essa percepção seja resultado da intensa utilização do ChatGPT, levando os usuários a notarem falhas que antes passavam despercebidas. A empresa está investigando as queixas para esclarecer a situação.

Por outro lado, alguns especialistas discordam da abordagem adotada no estudo, argumentando que as métricas utilizadas podem não ser conclusivas para avaliar a eficácia dos modelos. Arvind Narayanan, professor de informática em Princeton, apontou que as provas de código não avaliavam a correção, mas apenas a executabilidade direta, o que pode ter influenciado os resultados.

A opacidade de informações também é objeto de discussão. Enquanto algumas empresas têm optado por abordagens mais transparentes, compartilhando detalhes sobre treinamento e funcionamento de seus modelos, a OpenAI continua a ser misteriosa, o que torna difícil uma avaliação precisa de sua evolução.

Diante desse cenário, a pergunta persiste, e não temos respostas claras neste momento. De qualquer forma, reforçamos os alertas já compartilhados em outros artigos: use os chatbots com Inteligência Artificial com moderação, pois estamos diante de uma tecnologia que ainda está aprendendo com tudo o que fazemos com ela.

Não uso o ChatGPT Plus, de modo que não tenho parâmetros para avaliar os contrastes das versões. Mas posso afirmar que, nos últimos temos, o ChatGPT normal (baseado no GPT-3.5) está me atendendo de forma plena, e entrega resultados melhores que o Bing Chat e outras soluções baseadas no GPT-4.

Esse pode ser um indício de que o estudo não está tão distante assim da minha realidade prática.

Compartilhe