Sviluppato come esperimento da un gruppo di dottorandi dell’Università della California a Berkeley, TinyZero è di fatto un ‘clone’ di DeepSeek R1, perché ne riprende il nucleo funzionale e metodologico, ma con una marcia in più in termini di economicità.
I temi trattati all’interno dell’articolo
Il funzionamento di TinyZero
A presentare l’esperimento è stato il dottorando Jiayi Pan, il quale ha descritto su X come ha riprodotto DeepSeek R1-Zero applicandolo al gioco CountDown, dimostrando che, grazie al reinforcement learning, un modello linguistico di base da 3 miliardi di parametri (in questo caso Qwen 2.5) può sviluppare capacità autonome.
Pur precisando che questo approccio è stato validato solo nel contesto specifico del gioco e non su compiti di ragionamento generale, Pan ha presentato anche TinyZero, un modello open-source che si addestra con costi contenuti (meno di 30 dollari), disponibile gratuitamente su GitHub. Ciò apre nuove prospettive per applicazioni di intelligenza artificiale sempre più efficienti.
Cos’è il reinforcement learning?
Il reinforcement learning, in italiano “apprendimento per rinforzo”, è una tecnica del machine learning grazie alla quale un agente impara a prendere decisioni migliori interagendo con l’ambiente.
In questo contesto, l’agente osserva lo stato corrente dell’ambiente, esegue un’azione e riceve in cambio una ricompensa o una penalità. Questo meccanismo di feedback consente all’agente di valutare l’efficacia delle proprie azioni in relazione a un obiettivo specifico.
Il processo si basa su un approccio di prova ed errore: attraverso iterazioni successive, l’agente affina la propria politica decisionale, ossia la strategia che guida la scelta delle azioni, cercando di massimizzare la ricompensa totale nel tempo. La caratteristica fondamentale del reinforcement learning è proprio questa capacità di apprendere dai risultati delle proprie azioni senza l’ausilio di dati etichettati, come avviene invece nell’apprendimento supervisionato.