TinyZero, il clone californiano di DeepSeek costa meno di 30 dollari

TinyZero, riproduzione di DeepSeek R1, è stato presentato dal dottorando Jiayi Pan, che ha addestrato un nuovo modello con meno di 30 dollari.

2 min.

TinyZero, il clone californiano di DeepSeek costa meno di 30 dollari

Sviluppato come esperimento da un gruppo di dottorandi dell’Università della California a Berkeley, TinyZero è di fatto un ‘clone’ di DeepSeek R1, perché ne riprende il nucleo funzionale e metodologico, ma con una marcia in più in termini di economicità.

I temi trattati all’interno dell’articolo

Il funzionamento di TinyZero

A presentare l’esperimento è stato il dottorando Jiayi Pan, il quale ha descritto su X come ha riprodotto DeepSeek R1-Zero applicandolo al gioco CountDown, dimostrando che, grazie al reinforcement learning, un modello linguistico di base da 3 miliardi di parametri (in questo caso Qwen 2.5) può sviluppare capacità autonome.

Pur precisando che questo approccio è stato validato solo nel contesto specifico del gioco e non su compiti di ragionamento generale, Pan ha presentato anche TinyZero, un modello open-source che si addestra con costi contenuti (meno di 30 dollari), disponibile gratuitamente su GitHub. Ciò apre nuove prospettive per applicazioni di intelligenza artificiale sempre più efficienti.

Cos’è il reinforcement learning?

Il reinforcement learning, in italiano “apprendimento per rinforzo”, è una tecnica del machine learning grazie alla quale un agente impara a prendere decisioni migliori interagendo con l’ambiente.

In questo contesto, l’agente osserva lo stato corrente dell’ambiente, esegue un’azione e riceve in cambio una ricompensa o una penalità. Questo meccanismo di feedback consente all’agente di valutare l’efficacia delle proprie azioni in relazione a un obiettivo specifico.

Il processo si basa su un approccio di prova ed errore: attraverso iterazioni successive, l’agente affina la propria politica decisionale, ossia la strategia che guida la scelta delle azioni, cercando di massimizzare la ricompensa totale nel tempo. La caratteristica fondamentale del reinforcement learning è proprio questa capacità di apprendere dai risultati delle proprie azioni senza l’ausilio di dati etichettati, come avviene invece nell’apprendimento supervisionato.


Ultime news


Negli Usa sempre più persone si rivolgono alla FTC perchè l’AI amplifica alcune psicosi

La Federal Trade Commission potrebbe obbligare le aziende di AI…

Negli Usa sempre più persone si rivolgono alla FTC perchè l’AI amplifica alcune psicosi
Meta taglierà circa 600 posizioni nella sua unità di intelligenza artificiale

Secondo il responsabile AI di Meta i tagli renderanno il…

Meta taglierà circa 600 posizioni nella sua unità di intelligenza artificiale
Netflix intende sfruttare il potenziale dell’intelligenza artificiale

Il CEO della società Ted Sarandos ha chiarito che l'AI…

Netflix intende sfruttare il potenziale dell’intelligenza artificiale

In Evidenza


Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano

Gli ideatori, Lucia Cenetiempo e Massimiliano Di Blasi, ci raccontano…

Arriva l’Italian Prompt Battle: il primo torneo italiano di prompting si terrà a Milano
Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang

La società Scale AI ha confermato l'investimento di Meta e…

Scale AI conferma l’investimento di Meta e l’uscita del CEO Alexandr Wang
I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13

La nostra intervista a Luciano Floridi, già professore di filosofia…

I modelli generativi inquinano l’informazione? La nostra intervista a Luciano Floridi | AI Talks #13
L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Luciano Floridi, a teatro, ha esplorato la natura umana, contrapposta,…

L’AI ha fatto divorziare la capacità di agire e l’intelligenza: la nuova umanità secondo Floridi

Privacy policy| Cookie policy| Cookie setting| © 2025