Ultime notizie! Il ricercatore DeepSeek rivela online: L'addestramento R1 ha richiesto solo due o tre settimane e una potente evoluzione di R1 zero è stata osservata durante le vacanze del capodanno cinese

Proprio ora, abbiamo notato che il ricercatore DeepSeek Giorno Guo ha risposto alle domande dei netizen su DeepSeek R1 e sui piani futuri dell'azienda. Possiamo solo dire che DeepSeek R1 è solo l'inizio e la ricerca interna sta ancora avanzando rapidamente. I ricercatori di DeepSeek non si sono nemmeno presi una pausa durante le vacanze del Capodanno cinese e hanno lavorato instancabilmente per far progredire la ricerca. DeepSeek ha in serbo alcune grandi mosse

Ecco il fatto: il 1° febbraio, Daya Guo ha pubblicato un tweet in cui rivelava la cosa che lo aveva emozionato di più durante le vacanze del capodanno cinese: assistere al “crescita continua” della curva di prestazione del R1-Zero modello, e sentendo il forza potente di apprendimento per rinforzo (RL)!

Daya Guo, ricercatore di Deepseek AI, parla con i netizen

Ora vi aiuterò a riprodurre la conversazione di Daya Guo con i netizen:

Netizen A @PseudoProphet: "Big shot, vorrei chiederti quanto durerà questo continuo miglioramento delle prestazioni. È ancora nelle fasi iniziali? Sembra che il modello RL di DeepSeek sia appena iniziato, come GPT-2 nei modelli linguistici? O ha raggiunto una fase più matura come GPT-3.5 e sta per raggiungere un collo di bottiglia?"

Questa è una domanda molto acuta, che si collega direttamente al potenziale della tecnologia RL di DeepSeek! Anche la risposta di Daya Guo è molto onesta:

Daya Guo: "Penso che siamo ancora in una fase molto iniziale e c'è ancora molta strada da fare nel campo della RL. Ma credo che quest'anno assisteremo a progressi significativi".

Evidenzia i punti chiave! “Molto presto”, “una lunga strada da esplorare”, “progressi significativi quest’anno”! Queste parole chiave sono piene di informazioni. Ciò significa che DeepSeek ritiene di avere ancora molto margine di miglioramento nel campo della RL e gli attuali risultati di R1 potrebbero essere solo la punta dell'iceberg, quindi il futuro è promettente!

Subito dopo, un altro internauta @kaush_trip (Cheeku Tripathi) ha posto una domanda più professionale che va dritta al cuore delle capacità del modello:

Utente B @kaush_trip: “In base alle prestazioni di R1-Zero, come si valuta se il modello ha davvero capacità di generalizzazione, o se è solo memorizza le transizioni di stato e le ricompense?”

Questa domanda è molto pertinente! Dopotutto, molti modelli sembrano molto potenti, ma in realtà sono solo 'apprendimento mnemonico' dai dati di training, e falliranno in un ambiente diverso. DeepSeek R1 è davvero all'altezza?

Daya Guo: "Utilizziamo un benchmark per i domini non coperti dal prompt RL per valutare la capacità di generalizzazione. Al momento, sembra avere capacità di generalizzazione."

La frase "aree non coperte dal prompt RL" è la chiave! Ciò significa che DeepSeek non sta "imbrogliando" la valutazione con i dati di training, ma è testato con nuovi scenari che il modello non ha mai visto prima, che può veramente riflettere il livello di generalizzazione del modello. L'uso da parte di Daya Guo della rigorosa formulazione "sembra avere" lo rende anche più realistico e credibile

Successivamente, un netizen con ID @teortaxesTex, un grande fan di DeepSeek (il suo commento includeva persino le parole "squadra di cheerleader delle balene DeepSeek"), ha iniziato con il rapporto tecnico DeepSeek V3 e ha posto una domanda su tempo di addestramento del modello:

Utente C @teortaxesTex: "Se non è un segreto: quanto è durato l'addestramento RL questa volta? Sembra che aveste già R1 o almeno R1-Zero già dal 10 dicembre, perché il rapporto tecnico V3 menziona che il modello V2.5 ha utilizzato la distillazione della conoscenza R1 e il punteggio di V2.5-1210 è lo stesso del modello attuale. Questo è un proseguimento di quell'addestramento?"

Questo netizen ha una capacità di osservazione incredibile! È riuscito a estrarre così tanti dettagli dal rapporto tecnico. Daya Guo ha anche spiegato pazientemente il processo iterativo del modello:

Daya Guo: "I parametri R1-Zero e R1 di 660B hanno iniziato a funzionare solo dopo il rilascio di V3 e l'addestramento ha richiesto circa 2-3 settimane. Il modello R1 che abbiamo menzionato prima (come nel report tecnico V3) è in realtà R1-Lite o R1-Lite-Zero."

Ecco fatto! La R1-Zero e la R1 che vediamo ora sono "versioni nuove e aggiornate", e le precedenti serie R1-Lite sono versioni minori. Sembra che DeepSeek abbia silenziosamente iterato e aggiornato molte versioni dietro le quinte

Per quanto riguarda la velocità di allenamento, i netizen @jiayi_pirate (Jiayi Pan) e il netizen B @kaush_trip hanno trasmesso un “interrogatorio dell’anima”:

Utente D @jiayi_pirate: "10.000 passaggi RL in 3 settimane, ogni passaggio di propagazione del gradiente (grpo) richiede circa 3 minuti 🤔"

Utente B @kaush_trip: "Se ogni fase di propagazione del gradiente (grpo) dura circa 3 minuti, si tratta di circa 5 fasi all'ora, 120 fasi al giorno, il che è davvero molto lento."

Questo è un calcolo davvero meticoloso! Secondo il calcolo del netizen, la velocità di training di DeepSeek R1 non è effettivamente veloce. Ciò dimostra anche che il costo di training e l'investimento di tempo di un modello RL così performante sono enormi. "Il lavoro lento produce un lavoro eccellente" sembra essere un modo abbastanza appropriato per descrivere il training del modello AI

Infine, un internauta di nome @davikrehalt (Andy Jiang) ha posto una domanda da una prospettiva applicativa più all'avanguardia:

Utente E @davikrehalt: "Hai provato a usare RL per fare prova formale dell'ambiente, invece di rispondere semplicemente alle domande? Sarebbe fantastico se un modello open source potesse vincere una medaglia d'oro all'IMO (Olimpiade Internazionale della Matematica) quest'anno! (E più speranze!)”

Prova formale! Medaglia d'oro IMO! Questo netizen è piuttosto ambizioso! Tuttavia, applicare l'IA al campo hardcore della dimostrazione matematica è davvero la tendenza futura. La risposta di Daya Guo è ancora una volta sorprendente:

Daya Guo: "Stiamo anche cercando di applicare R1 ad ambienti di prova formali come Lean. Speriamo di rilasciare presto modelli migliori alla comunità".

Dalle parole di Daya Guo, sembra che abbiano già fatto progressi in questo ambito e potrebbero uscire modelli ancora più impressionanti in futuro!

In chiusura

Dalla risposta di Daya Guo si possono evincere tre segnali chiave:

Posizionamento tecnico: la RL è ancora nelle sue fasi iniziali e i miglioramenti delle prestazioni sono ben lungi dal raggiungere i loro limiti;

Logica di verifica: capacità di generalizzazione per test interdominio, rifiutando le “speculazione sulla memoria”

Confini applicativi: dai modelli linguistici alle dimostrazioni matematiche, RL si sta muovendo verso il ragionamento di ordine superiore

Messaggi simili

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *