Sintesi di immagini AI fotorealistiche: Google compete con DALL-E-2 – con Imagen

La corsa allo spazio dei nuovi grandi modelli AI di Google, Meta e OpenAI, iniziata nella primavera del 2022, sta accelerando: circa quattro settimane dopo il rilascio del generatore di immagini AI DALL-E 2 di OpenAI, Google sta seguendo e presentando Imagen, un modello di diffusione da testo a immagine con una profonda comprensione del linguaggio che genera immagini fotorealistiche dall’input di testo. In questo momento, tuttavia, il team di Google Brains non sta rilasciando il codice o una versione demo pubblica del modello, che i ricercatori coinvolti nel progetto giustificano con preoccupazioni etiche in una lunga sezione del loro rapporto.

Per fare un confronto: OpenAI aveva una versione demo di utenti di test selezionati DALL-E 2 reso accessibile e solo di recente ha anche ampliato la cerchia degli utenti. Tuttavia, anche OpenAI non divulga il codice e si riserva il diritto di limitarne l’uso, che è soggetto a numerose condizioni e requisiti, in qualsiasi momento. Le immagini generate con DALL-E 2 non appartengono a chi le ha create, e OpenAI aveva escluso fin dall’inizio l’uso commerciale, ad esempio per NFT, così come la creazione di immagini fotorealistiche di persone viventi o l’uso per la pornografia e la rappresentazione della violenza.

Tecnicamente, ci sono due idee di base nel nuovo sistema di intelligenza artificiale di Google: secondo il team di Google Brains, Imagen si basa su grandi modelli del linguaggio Transformer per l’elaborazione del testo e si basa sull’approccio del modello di diffusione per creare immagini dall’aspetto realistico. Il fatto che i Large Language Models (LLM) generici, pre-addestrati su grandi quantità di dati di testo puro, si siano dimostrati straordinariamente potenti quando si codifica il testo per la sintesi di immagini può ora essere considerato provato, compresi i ricercatori di Google giunti a questa conclusione nel loro documento e possono ulteriormente supportarlo con i loro risultati.

READ
Astronomia: Mappa della Via Lattea: Nuovi dati dalla sonda spaziale Gaia

Al suo interno, Imagen utilizza un grande, Encoder T5-XXL “congelato” per codificare l’immissione di testo. Un modello di diffusione mappa l’incorporamento del testo numerico su un’immagine a bassa risoluzione (64 x 64 pixel). Inoltre, Imagen utilizza modelli di diffusione ad alta risoluzione condizionale del testo per aumentare le immagini dalle dimensioni di base a 256 per 256 e 1024 per 1024 pixel, che corrispondono alla risoluzione di DALL-E 2. I modelli di diffusione vengono utilizzati nei modelli di apprendimento automatico che vengono alimentati con immagini sempre più rumorose durante l’allenamento. Dopo aver completato la formazione, sono anche in grado di invertire il processo, ovvero produrre immagini ragionevoli dal rumore.

Schema della visualizzazione su Imagen, il nuovo generatore di immagini AI di Google: un codificatore di testo congelato funge da base, gli incorporamenti da testo a immagine possono essere estrapolati a una risoluzione più elevata nei passaggi intermedi.

(Bild: Ricerca Google)

È interessante notare che, secondo l’articolo del team di Google, l’aumento del modello linguistico in Imagen ha aumentato sia la fedeltà del campione che l’allineamento immagine-testo più che aumentare il modello di diffusione dell’immagine. L’allineamento qui significa il coordinamento e l’allineamento dell’input di testo e dell’output dell’immagine per produrre risultati coerenti in cui l’output corrisponde il più possibile alla specifica di destinazione inserita in forma di testo.

Confronto di Imagen con altri metodi che utilizzano Drawbench e il sistema di intelligenza artificiale raggiunge valori SOTA (lo stato dell’arte) sul set di dati COCO.

(Bild: Ricerca Google)

La performance dei modelli è spesso misurata dalla performance su set di dati comparativi utilizzando benchmark standard. Ecco come riferiscono i ricercatori sul record di dati COCO (Common Object in Context), per il quale Imagen ottiene un punteggio relativamente alto senza prima essere stato addestrato su questi dati, mentre i tester umani apparentemente hanno trovato i campioni di Imagen alla pari con COCO nella corrispondenza immagine-testo. Il team di Google Brains ha confrontato Imagen con metodi più recenti come VQ-GAN e CLIP, Latent Diffusion Models e DALL-E 2 e presenta nel suo rapporto di ricerca DrawBench, un metodo di nuova concezione per confrontare e valutare modelli testo-immagine.

Source link