DeepSeek potrebbe aver usato Gemini per addestrare il suo ultimo modello

La versione aggiornata del modello di AI R1 rilasciata da DeepSeek la scorsa settimana potrebbe essere stata addestrata tramite l’AI di Google Gemini. L’ipotesi è stata formulata da alcuni ricercatori dopo che l’azienda cinese non ha rilasciato informazioni sulla fonte dei dati utilizzati.

In particolare è stato Sam Paech, uno sviluppatore di Melbourne, a pubblicare su X una prova di questa eventualità. In un post Peach ha affermato che il nuovo modello rilasciato da DeepSeek, chiamato R1-0528, predilige parole ed espressioni simili a quelle utilizzate da Gemini 2.5 Pro di Google. Non si tratta di una prova evidente, ma a questa testimonianza se ne sono aggiunte altre sulle somiglianze di ragionamento fra i due modelli.

Non è la prima volta che DeepSeek viene accusata di addestrarsi attraverso modelli di AI rivali. A dicembre ad esempio, gli sviluppatori avevano osservato che il modello V3 di DeepSeek si identificava con frequenza con ChatGPT, suggerendo un possibile addestramento tramite essa. All’inizio del 2025 OpenAI aveva dichiarato inoltre di essere in possesso di prove che dimostravano l’uso della distillazione – una tecnica per addestrare modelli di intelligenza artificiale estraendo dati da modelli più grandi e potenti. – per l’addestramento di DeepSeek.

A sostenere questa ipotesi si è aggiunto anche l’esperto di AI Nathan Lambert, ricercatore presso l’istituto di ricerca no-profit AI2. “Se fossi DeepSeek, creerei sicuramente un sacco di dati sintetici dal miglior modello API disponibile. DeepSeek è a corto di GPU e ha un sacco di soldi. Significa letteralmente più risorse di calcolo per loro” ha scritto Lambert in un post su X.

Per evitare la distillazione, le principali aziende di AI hanno già messo in pratica alcune mosse preventive. OpenAI ha iniziato a chiedere alle organizzazioni una di verifica dell’identità per accedere ad alcuni modelli avanzati. La procedura richiede un documento d’identità rilasciato da un governo di uno dei paesi supportati dall’API di OpenAI e la Cina non è nell’elenco. Google invece ha recentemente iniziato a riepilogare le tracce generate dai modelli disponibili tramite la sua piattaforma di sviluppo AI Studio, un passaggio che rende più difficile addestrare modelli concorrenti performanti sulle tracce di Gemini.