Google ha da poco lanciato il suo nuovo modello “all’avanguardia” per le generazione di immagini AI Gemini 2.5 Flash Image. Si tratta di un modello multimodale che permette sia di generare immagini che modificarle partendo da input testuali o di immagini.
Il modello contiene una serie di funzionalità che rendono più interattivo il rapporto fra utente e piattaforma. In primo luogo con Gemini 2.5 Flash Image è possibile fare editing conversazionale, cioè effettuando delle modifiche localizzate attraverso linguaggio naturale (per esempio, sfocare uno sfondo, rimuovere persone, cambiare pose, colorare una foto in bianco e nero). È inoltre possibile combinare più immagini di input in un’unica scena. Gemini 2.5 Flash Image vanta poi ottimi livelli di consistenza nello stile e nei soggetti e un’ottima comprensione del mondo reale grazie ad un ragionamento visivo e semantico avanzato.
Attualmente il modello è disponibile in anteprima e accessibile attraverso Google AI Studio, API o Vertex AI e riceve costantemente miglioramenti su affidabilità, ragionamento visivo e consistenza dei dettagli.
Google presenta Genie 3: il nuovo modello genera mondi virtuali e interattivi in tempo reale
Secondo DeepMind, Genie 3 rappresenta un passo decisivo verso lo…