L’immagine di Google AI Imagen supera DALL-E 2

L'immagine di Google AI Imagen supera DALL-E 2, ma Google ha delle preoccupazioni

Immagine: immagine / Google

L’articolo può essere visualizzato solo con JavaScript attivato. Per favore abilita JavaScript nel tuo browser e ricarica la pagina.

Con l’immagine generativa AI Imagen, Google mostra anche dopo OpenAI che l’intelligenza artificiale può generare immagini credibili e utili.

Imagen è la risposta di Google a L’immagine AI DALL-E 2 introdotta di recente da OpenAI. Con una differenza: OpenAI ha presentato DALL-E 2 direttamente come prodotto che include un beta test, che dovrebbe essere disponibile per più persone a partire dall’estate.

Secondo i ricercatori di Google, Imagen batte DALL-E 2 in termini di precisione e qualità, ma l’IA generativa è attualmente disponibile solo come opera scientifica. Per ragioni etiche, questo probabilmente non cambierà nel prossimo futuro, ne parleremo più avanti.

Imagen genera immagini corrispondenti all’input di testo. | Immagine: Google AI

Il testo diventa immagine

Imagen si basa su un grande, pre-addestrato Modello del linguaggio del trasformatore (T5), che produce una rappresentazione numerica dell’immagine (incorporamento di immagini) da cui un modello di diffusione crea un’immagine. I modelli di diffusione vedono immagini che diventano gradualmente rumorose durante l’allenamento. Dopo l’addestramento, i modelli possono invertire questo processo, ovvero generare un’immagine dal rumore.

Il processo di generazione dell’immagine. La generazione di immagini ha origine dalla comprensione del testo di un grande modello di linguaggio Transformer. In teoria, per l’input potrebbe essere utilizzato un modello linguistico diverso, che a sua volta dovrebbe influire sulla qualità delle immagini. | Immagine: Google AI

L’immagine originale a bassa risoluzione (64 x 64) viene quindi ridimensionata tramite intelligenza artificiale fino a 1024 x 1024 pixel, la stessa risoluzione di DALL-E 2. Simile a Nvidia DLSS, il ridimensionamento AI aggiunge nuovi dettagli relativi ai contenuti all’immagine originale generata, in modo che offra anche un’elevata nitidezza nella risoluzione target. Attraverso questo processo di upscaling, Imagen risparmia molta potenza di calcolo che sarebbe necessaria se il modello emettesse direttamente risoluzioni elevate.

READ
L'IVA è ora gratuita qui

Imagen ha prestazioni migliori di DALL-E 2 sulla valutazione umana

Una scoperta chiave del team di Google AI è che un grande modello linguistico pre-addestrato è “sorprendentemente efficace” per la codifica del testo per la successiva sintesi di immagini. Per una generazione di immagini più realistica hanno anche il L’allargamento del modello linguistico ha un effetto maggiore come una formazione più ampia del modello di diffusione che crea l’immagine reale.

Il team ha sviluppato il Benchmark “DrawBench”, dove le persone valutano la qualità di una creatività generata e la corrispondenza tra la creatività e il testo di input. Confrontano le uscite di più sistemi in parallelo.

Nel benchmark DrawBench, le immagini umane generate da Imagen e DALL-E 2 sono state valutate in termini di precisione di adattamento all’input e qualità del motivo. Secondo Google Imagen, i tester umani li preferivano “chiaramente”. | Immagine: Google AI

In questo test, Imagen ha ottenuto risultati significativamente migliori rispetto a DALL-E 2, che i ricercatori attribuiscono, tra le altre cose, alla migliore comprensione del linguaggio del modello testuale. Nella maggior parte dei casi, Imagen può tradurre l’istruzione “Un panda che fa latte art” nel motivo giusto: un panda che versa perfettamente il latte in una tazza di caffè. DALL-E 2 creare invece una faccia di panda nella schiuma di latte.

Sulla sinistra ci sono le immagini generate da Imagen, che mostrano un motivo che corrisponde all’input in tre casi su quattro. A destra, errata interpretazione di DALL-E 2 in quattro casi su quattro. | Immagine: Google

Anche con un benchmark basato su COCO-Datensatzes (oggetto comune nel contesto) Imagen ha ottenuto un nuovo record (7,27) e ha sovraperformato DALL-E (17,89) e DALL-E 2 (10,39). Tutti e tre i modelli di immagine non sono stati precedentemente addestrati con i dati Coco. Solo Metas “Fai una scena” (7.55) agisce allo stesso livello di Imagen, ma l’IA dell’immagine di Meta è stata addestrata con i dati di Coco.

READ
Le migliori offerte per la smart home del Black Friday: altoparlanti, prese, lampade intelligenti e altro a prezzi stracciati - Kino News

Muoviti lentamente e lascia che le cose guariscano

Una pubblicazione del modello non è attualmente pianificata per ragioni etiche, poiché il modello testuale sottostante contiene “distorsioni e restrizioni sociali”, motivo per cui Imagen potrebbe creare “stereotipi dannosi”.

logo


Source link