Microsoft ha svelato Magma, un innovativo modello di intelligenza artificiale multimodale progettato per rivoluzionare l’interazione tra l’AI e il mondo fisico. È strutturato in particolare per l’applicazione al mondo della robotica. A differenza dei tradizionali modelli di linguaggio, Magma è in grado di elaborare simultaneamente dati testuali, immagini e video, consentendo una comprensione integrata e una risposta efficace a compiti complessi sia nel dominio digitale che in quello reale.
“Formulare piani ed eseguire azioni”
La caratteristica distintiva di Magma risiede nella sua capacità di “formulare piani ed eseguire azioni” per raggiungere obiettivi specifici. Questo significa che, oltre a interpretare informazioni multimodali, Magma può agire autonomamente, controllando interfacce software e sistemi robotici con precisione. Ad esempio, può navigare attraverso un’interfaccia utente o manipolare oggetti fisici, come posizionare un ingrediente in una ciotola o spostare un panno su una superficie.
Architettura tecnica avanzata
Sviluppato in collaborazione con istituzioni accademiche di prestigio, tra cui KAIST, University of Maryland, University of Wisconsin-Madison e University of Washington, Magma integra architetture di deep learning e un pre-addestramento su larga scala. Utilizza un backbone visivo ConvNeXt-XXL per l’elaborazione di immagini e video, mentre un modello linguistico LLaMA-3-8B gestisce gli input testuali. La combinazione permette a Magma di comprendere e integrare informazioni visive e linguistiche in modo fluido, facilitando l’esecuzione di compiti che richiedono una comprensione spaziale e temporale.
Le potenziali applicazioni di Magma sono vaste e variegate. Nel settore della robotica, potrebbe consentire a robot di ogni tipologia di eseguire compiti quotidiani con maggiore autonomia e precisione.