OpenAI rilascia un aggiornamento per ChatGPT: supporto alla generazione di immagini in chat

OpenAI ha recentemente presentato una nuova funzionalità che consente la generazione di immagini direttamente all’interno di ChatGPT, denominata ‘ChatGPT immagini’. Questa innovazione, resa possibile grazie al modello omnimodale GPT-4o, permette agli utenti di creare immagini in tempo reale mentre interagiscono in conversazioni testuali. La funzionalità è disponibile per gli abbonati di ChatGPT Plus, Pro e Team, sia per gli utenti paganti che per quelli gratuiti, e si prevede che sarà presto accessibile anche per le versioni Enterprise ed Edu.

Capacità del modello

Sul blog ufficiale di OpenAI, l’azienda ha messo in evidenza le straordinarie capacità di ChatGPT immagini, in grado di generare immagini fotorealistiche. Tra gli esempi pubblicati, spicca una rappresentazione di Karl Marx davanti a un centro commerciale negli Stati Uniti. A differenza di altri generatori di immagini basati su intelligenza artificiale, che talvolta faticano a mantenere coerenza nei colori e nelle forme, ChatGPT immagini riesce a associare correttamente attributi a un numero significativamente maggiore di oggetti.

Un aspetto innovativo riguarda la capacità del modello di gestire il testo all’interno delle immagini. Grazie a questa funzionalità, il sistema può trascrivere riferimenti testuali in modo preciso e senza errori di battitura, affrontando così una delle principali sfide nel campo della generazione di immagini tramite intelligenza artificiale. Gabriel Goh, responsabile della ricerca di OpenAI, ha dichiarato al sito The Verge che questo risultato è frutto di “molti mesi di piccoli miglioramenti”.

Approccio tecnico

Dal punto di vista tecnico, il sistema adotta un approccio ‘auto regressivo’, generando immagini in sequenza, in modo simile a come si scrive un testo. Questa metodologia si distingue nettamente dalla tecnica del modello di diffusione, utilizzata da strumenti come DALL-E, che producono l’immagine intera in un’unica operazione.

Nonostante l’elevata qualità delle immagini generate, OpenAI ha deciso di non applicare filigrane visive, optando invece per l’inclusione di metadati standard che attestano l’origine delle immagini. Questa scelta mira a garantire un utilizzo più flessibile delle immagini create, mantenendo comunque traccia della loro provenienza. La nuova funzionalità rappresenta un passo avanti significativo nel campo della generazione di contenuti visivi attraverso l’intelligenza artificiale, ampliando le possibilità creative per gli utenti di ChatGPT.