
Como se a humanidade já não tivesse problemas suficientes ao ter plataformas de inteligência artificial que entrega alucinações nas respostas em textos, agora temos essa mesma tecnologia repetindo as anormalidades na hora de identificar imagens.
Um estudo recente da Universidade de Harvard revelou que, da mesma forma que pode “alucinar” informações textuais, a IA também apresenta falhas na interpretação visual, mostrando que a burrice artificial também existe.
Aqui, não é exatamente o fato de não acreditar na capacidade de identificação de imagens das plataformas, mas reforçar, mais uma vez, que confiar cegamente no que um chatbot está fazendo é sim um erro grosseiro, e a revisão humana ganha um protagonismo cada vez maior.
Os detalhes sobre o estudo

Modelos multimodais avançados, como GPT-4o, Claude 3 e Gemini Pro Vision, foram expostos a ilusões de ótica clássicas, como o efeito Müller-Lyer e as figuras impossíveis de Kanizsa.
Até aí, nada surpreendente — as máquinas, assim como os humanos, identificaram corretamente esses truques visuais, e isso era mais do que esperado para uma plataforma de inteligência artificial.
O inusitado surgiu quando os pesquisadores criaram imagens chamadas de “ilusões-ilusões”. Esses desenhos simulavam ilusões, mas, na realidade, não possuíam nenhum engano perceptivo.
Enquanto humanos reconheciam facilmente a ausência de truques, as IAs frequentemente falhavam, interpretando erroneamente as imagens como ilusões reais. A tendência piorava quando os modelos recebiam instruções sugerindo explicitamente que havia uma ilusão presente, o que os levava a “inventar” fenômenos visuais inexistentes.
Em termos práticos: não apenas as plataformas falhavam ao não identificar as simulações de falsas ilusões de ótica, mas também criava do nada os fenômenos que explicavam tais ilusões.
A gente poderia tirar sarro disso, pois é uma estupidez sem tamanho por parte dos chatbots. Mas isso é um pouco mais preocupante do que parece.
O que podemos aprender com tudo isso?
Do ponto de vista técnico, essa limitação reforça a ideia de que esses sistemas funcionam por associação estatística e não por compreensão genuína, mostrando que uma IA pode no máximo emular o processo de interpretação e raciocínio, mas não efetivamente raciocinar para concluir por si que a imagem é uma falsa ilusão.
Ao identificar padrões semelhantes aos vistos em seu treinamento, as IAs reproduzem respostas prévias sem avaliar o contexto visual de forma crítica. A limitação é especialmente preocupante em aplicações que exigem alta precisão, como diagnósticos médicos ou análises de imagens complexas.
O estudo destaca um paralelo claro entre as alucinações textuais e visuais, já que em ambos os casos, as respostas das IAs podem soar convincentes, mas não correspondem à realidade.
E aqui, a regra (ou conselho, entendam como quiser) é a mesma para os casos de alucinações na escrita. Confiar cegamente nessas ferramentas, especialmente em áreas sensíveis, pode ser algo arriscado, e você vai acreditar nos resultados entregues por sua conta e risco.
Neste momento, as plataformas de inteligência artificial vão entregar resultados melhores quando o usuário abastece o prompt de contexto. Como as plataformas não raciocinam e não entendem elementos da comunicação humana como sarcasmo e ironia, os resultados distorcidos com base no método de raciocínio humano tendem a aparecer.
A pesquisa reforça a importância de entender que, apesar de poderosas, as IAs não interpretam o mundo da mesma forma que os humanos e que suas “percepções” continuam limitadas por seus métodos de aprendizado.
O problema é que, quando as IAs evoluírem neste aspecto, se transformarão em potencial ameaça para a humanidade.
Mas isso é assunto para outro artigo.
Via MuyComputer

