
A OpenAI anunciou uma grande mudança de interação na sua principal plataforma de inteligência artificial: agora, o ChatGPT pode gerar imagens diretamente pelo modelo multimodal GPT-4o.
Antes, os usuários precisavam utilizar o ChatGPT apenas como um intermediário para o DALL-E 3, o que obrigava a mudança de plataforma para concluir a solicitação. Essa integração simplifica o processo e melhora a experiência.
A novidade está disponível para todos os usuários do ChatGPT nos planos Plus, Pro, Team e gratuito. Além disso, será lançada em breve via API para desenvolvedores.
Vamos conhecer a partir de agora todos os detalhes dessa novidade.
O que torna o GPT-4o tão especial a partir de agora?

O GPT-4o, lançado em maio de 2024, é um modelo omnimodal, capaz de processar e gerar texto, imagens, áudio e vídeo. Até então, sua funcionalidade de criação de imagens estava desativada para o grande público, o que estava se tornando uma grande desvantagem em relação aos seus concorrentes.
O Gemini do Google já está oferecendo em modo de testes (disponível para todos) o recurso de criação de imagens. E o Grok, da xAI, desde a sua segunda versão entrega a funcionalidade de criação de imagens, com resultados muito interessantes para o público mais casual.
Agora, essa limitação do ChatGPT acabou.
Diferente do DALL-E 3, que utilizava um modelo de difusão para reconstruir imagens removendo ruídos dos pixels, o GPT-4o adota uma abordagem autorregressiva.
Ele cria imagens de forma sequencial, da esquerda para a direita e de cima para baixo, garantindo mais precisão e coerência. O avanço é especialmente útil para integrar múltiplos elementos e textos legíveis nas imagens.
DALL-E chegou ao fim?

Não exatamente.
Apesar de o GPT-4o assumir como padrão no ChatGPT, o DALL-E 3 continuará acessível por meio de GPTs personalizados. Isso significa que quem preferir o antigo gerador ainda poderá usá-lo, mas o futuro da IA de imagem da OpenAI está no GPT-4o.
Era o próximo passo óbvio diante do cenário atual de geração de imagens por inteligência artificial. E no final das contas, o que essas plataformas querem é que as pessoas utilizem os recursos, não só para justificar os desenvolvimentos, mas principalmente, os investimentos feitos nessas plataformas.
Se o campo de inteligência artificial é uma corrida, iniciativas como Qwen e DeepSeek aumentaram a velocidade. E a principal consequência disso é a maior oferta de recursos que antes eram exclusivos das versões pagas das plataformas.
As principais melhorias
O potencial do GPT-4o com a inclusão do DALL-E para geração de imagens.

Para começo de conversa, o ChatGPT agora pode criar imagens com textos legíveis e corretamente posicionados, o que ainda é um enorme problema para as IAs de imagem.
O GPT-4o resolve esse problema, o que permite a criação de pôsteres, menus e infográficos com escrita clara e bem ajustada.

Como parte integrada do ChatGPT, o modelo também pode gerar imagens baseadas no histórico de conversa, ajustando detalhes conforme o usuário interage. Isso garante consistência visual, o que é perfeito para design de personagens e cenários.
Enquanto modelos anteriores tinham dificuldade para representar múltiplos elementos com precisão, o GPT-4o consegue gerenciar entre 10 e 20 objetos distintos, mantendo cores, formas e posições bem definidas.

Essa funcionalidade cai como uma luva para produtores de conteúdo que vão criar vídeos em formato dark, com base em imagens estáticas. Ou ilustrações diferentes sobre temas diversos. Certamente vai agilizar (e muito) o processo criativo.
Desde esboços a lápis até fotografias hiper-realistas, o modelo permite ajustar estilos com precisão. Ele também pode modificar imagens carregadas pelos usuários, adaptando-as a novos contextos e estilos.
Aplicações práticas
A nova funcionalidade do GPT-4o vai muito além da arte experimental. Suas aplicações incluem:
- Design gráfico: criação de logotipos, banners e materiais de marketing.
- Educação: ilustrações didáticas, diagramas científicos e visuais históricos.
- Desenvolvimento de jogos: consistência visual para personagens e cenários.
- Marketing digital: produção de conteúdo para redes sociais e apresentações.
Além disso, o modelo permite ajustes avançados, como definição de proporções, esquemas de cores (incluindo códigos hexadecimais) e fundos transparentes.
Com tudo isso, é correto dizer que o ChatGPT entra de vez na briga pelo posto de melhor IA para criação de imagens, com a promessa de maior precisão e controle nos resultados. A plataforma da OpenAI ficou ainda mais poderosa para designers, educadores, desenvolvedores e profissionais de marketing.
E é claro que a maioria dos usuários mais casuais poderão usufruir – e de graça – desse novo recurso. Basta aguardar um pouco, e veremos uma explosão de prompts voltados para a criação de memes, imagens ilustrativas e fotos ultrarrealistas.
Via OpenAI

