1 Contesto
Durante la Festa di Primavera, DeepSeek R1 ancora una volta ha attirato grande attenzione e anche l'articolo interpretativo DeepSeek V3 che avevamo scritto in precedenza è stato ritrasmesso e ampiamente discusso.
Sebbene siano state effettuate numerose analisi e riproduzioni di DeepSeek R1, qui abbiamo deciso di raccogliere alcune note di lettura corrispondenti.
Utilizzeremo tre diagrammi schematici principali per illustrare la costruzione del modello e i punti tecnici chiave, distillando l'essenza della serie DeepSeek-R1 per fornire una comprensione più intuitiva delle sue idee progettuali.
Il documento corrispondente è [2501.12948] DeepSeek-R1: Incentivare la capacità di ragionamento negli LLM tramite apprendimento rinforzato
e il modello open source corrispondente è DeepSeek-R1
2 Introduzione
2.1 Algoritmi di ragionamento comuni
Come mostrato nella Figura 2 qui sotto, l'autore spiega i quattro algoritmi di ragionamento comuni. Sebbene differiscano in dettagli specifici, includono tutti due operazioni principali:
- Espansione: genera token per espandere il percorso della soluzione.
- Aggregazione: integrare i risultati di ogni percorso per ottenere la risposta finale. Aumentare le risorse computazionali nella fase di espansione può solitamente migliorare la qualità della risposta nella fase di aggregazione.
Autoconsistenza (SC). Come mostrato nella Figura 2a, l'idea fondamentale della SC è quella di generare più output diversi (che possono essere ottenuti modificando i parametri di campionamento, ecc.), e poi votare per tutte le risposte per selezionare la risposta con il più alto tasso di vincita. Il parametro chiave è il numero di risposte candidate n.
Algoritmo Rebase: come mostrato nella Figura 2b sottostante, Rebase genera anche più output, ma vengono generati in più passaggi. Ogni passaggio viene valutato utilizzando il modello Reward e il risultato con il punteggio più alto viene utilizzato per continuare la generazione. Infine, viene generato un albero di ragionamento con più rami. La risposta con il punteggio più alto (Best-of-N) viene selezionata nella fase di aggregazione.
Ricerca ad albero di Monte Carlo (MCTS): come mostrato nella Figura 2c qui sotto, MCTS è un potente algoritmo di ragionamento che espande i nodi tramite campionamento graduale e costruisce un albero di soluzioni fino a raggiungere un nodo foglia contenente una soluzione candidata. Ogni soluzione viene valutata tramite un modello o una simulazione di ricompensa e il punteggio viene propagato ai nodi antenati per aggiornare i loro valori di ricompensa, completando così un'iterazione. Il parametro chiave è anche n e l'aumento di n consente un'esplorazione più approfondita e ampia di potenziali soluzioni.
Catena cognitiva internalizzata (ICoT). Come mostrato nella Figura 2d sottostante, gli ultimi LLM, come OpenAI o1 e Qwen-QWQ, possono internalizzare il comportamento di ragionamento durante l'addestramento senza la necessità di un algoritmo di ragionamento esplicito. L'idea di base è quella di generare una sequenza CoT, scomporre problemi complessi in più sottoproblemi e quindi ottimizzare iterativamente queste risposte riflettendo sugli output precedenti per arrivare infine a una soluzione.

2.2 Metodi di allineamento del ragionamento
2.2.1 Panoramica del metodo Best-of-N
In breve, Best-of-N è un metodo di allineamento ampiamente utilizzato nell'inferenza LLM, che mira a garantire l'alta qualità dei risultati generati generando più risposte candidate e selezionando la migliore. Consiste in tre processi principali:
- Processo di generazione: per un dato prompt X, il metodo Best-of-N genera N risposte IID (Y₁, Y₂, …, Yₙ), dove N è spesso definito "dimensione del batch".
- Meccanismo di punteggio: ogni risposta generata viene valutata da un modello di ricompensa per ottenere un punteggio corrispondente {s(Y₁), s(Y₂), …, s(Yₙ)}.
- Selezione della risposta migliore: infine, la risposta con il punteggio più alto tra tutte le risposte generate viene selezionata come output, ovvero Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
I vantaggi di questo metodo sono:
- Può evitare efficacemente complesse fasi di messa a punto, semplificando l'implementazione di modelli linguistici pre-addestrati o perfezionati con istruzioni.
- È semplice da implementare, facile da comprendere e sostanzialmente privo di iperparametri: l'iperparametro principale è N, che può essere regolato dinamicamente durante l'inferenza.
- È altamente competitivo in termini di qualità della generazione e può persino rivaleggiare con alcune tecniche complesse di post-formazione come RLHF o DPO. La ricerca mostra che il metodo Best-of-N funziona bene sulla curva di trade-off tra ricompensa e divergenza KL, superando persino altre strategie di allineamento complesse.
Gli svantaggi di questo metodo sono
- l'inferenza richiede la generazione di sequenze N, il che può portare a un sovraccarico computazionale significativo. In pratica, un valore ragionevole per N varia da 4 a 128, ma per competere con i metodi di post-addestramento più avanzati, potrebbero essere necessari valori N più elevati, come da 1000 a 60000, il che può portare a un sovraccarico computazionale quasi inaccettabile.
Il metodo best-of-N viene spesso utilizzato per generare set di dati di alta qualità per la successiva messa a punto supervisionata e ha svolto un ruolo chiave nel processo di allineamento di LLaMA-2 e LLaMA-3.
2.2.2 Metodo OpenAI best-of-N
OpenAI ha proposto per la prima volta il campionamento Best-of-N in [2009.01325] Imparare a riassumere dal feedback umano . In particolare, viene utilizzato per valutare e ottimizzare le prestazioni del modello di riepilogo selezionando il miglior riepilogo generato da più modelli. Questo metodo aiuta i ricercatori a comprendere meglio la relazione tra diverse metriche di valutazione e preferenze del valutatore umano, ed è utilizzato per guidare l'addestramento e l'ottimizzazione del modello.
OpenAI utilizza anche il campionamento Best-of-N (campionamento di rifiuto) nel follow-up [2112.09332] WebGPT: risposte alle domande assistite dal browser con feedback umano. In particolare, un numero fisso di risposte (4, 16 o 64) viene campionato dal modello BC o dal modello RL, e quella con il punteggio più alto del modello di ricompensa viene selezionata come metodo di ottimizzazione per il modello di ricompensa avversaria. Questo metodo non richiede ulteriore formazione, ma aumenta la complessità computazionale della fase di inferenza da raggiungere.
2.2.3 Metodo Google BOND
In [2407.14622] BOND: Allineando gli LLM con la distillazione Best-of-N, gli autori di Google propongono la distillazione Best-of-N (BOND), un nuovo algoritmo RLHF progettato per simulare la strategia di campionamento Best-of-N tramite un algoritmo di corrispondenza della distribuzione senza aumentare significativamente il sovraccarico computazionale durante l'inferenza.

Nello specifico, l'autore ricava innanzitutto la distribuzione analitica esatta del campionamento Best-of-N e fornisce la funzione di probabilità del campionamento Best-of-N:

In secondo luogo, gli autori esprimono il problema come un problema di corrispondenza della distribuzione;

in seguito, gli autori propongono di utilizzare la divergenza di Jeffreys come obiettivo di corrispondenza della distribuzione:

Infine, per risolvere il problema della selezione di N, gli autori propongono il metodo iterativo BOND, che migliora le prestazioni della strategia distillando iterativamente la distribuzione Best-of-N. I passaggi specifici includono:
Inizializza la strategia di ancoraggio ausiliaria π(ancora).
Eseguire iterativamente BOND per distillare il Best-of-N π(anchor) e aggiornare π(anchor) dopo ogni passaggio.

2.3 Supervisione del processo e supervisione dei risultati
Risultato e Processo si riferiscono ai due aspetti della valutazione del modello di ricompensa:
- Modello di ricompensa del risultato: valutare se il risultato finale dell'output del modello è corretto o come previsto.
- Modello di ricompensa del processo: valuta se i passaggi di ragionamento e decisionali del modello nel processo di generazione dei risultati sono ragionevoli ed efficaci.
Ad esempio, Let's Verify Step by Step | OpenAI di OpenAI menziona anche:
- Supervisione del processo (supervisione dei risultati): comporta la fornitura di feedback su ogni passaggio del processo di ragionamento del modello. I modelli di ricompensa supervisionati dal processo (PRM) sono addestrati per prevedere la correttezza di ogni passaggio della soluzione.
- Supervisione dei risultati: la supervisione dei risultati fornisce un feedback basato solo sul risultato finale del ragionamento del modello. I modelli di ricompensa supervisionati dai risultati (ORM) vengono addestrati utilizzando la risposta finale della soluzione e la correttezza è determinata dal controllo automatico.
2.4 Hacking delle ricompense
In RL, il reward hacking si riferisce al fenomeno in cui un agente sfrutta un difetto nella progettazione della funzione di ricompensa per massimizzare la ricompensa cumulativa in un modo che non soddisfa l'intenzione originale del progettista. Sebbene questo comportamento soddisfi tecnicamente l'obiettivo di ottimizzazione della funzione di ricompensa, l'effetto effettivo devia dall'obiettivo previsto del compito e può persino portare a conseguenze negative.
Analisi dei punti chiave:
- Definizione e manifestazione:
- L'agente trova un difetto nella funzione di ricompensa e ottiene una ricompensa elevata prendendo delle "scorciatoie" invece di risolvere effettivamente il problema.
- Ad esempio, un robot per le pulizie spegne le luci per far "sembrare" pulita la stanza, invece di pulirla davvero; un agente di gioco segna ripetutamente punti senza completare l'obiettivo del livello; sceglie di non rallentare per ridurre il numero di frenate, il che rappresenta un pericolo per la sicurezza; genera contenuti privi di senso che corrispondono a parole chiave per ingannare i punteggi elevati.
- Cause profonde:
- Progettazione incompleta della funzione di ricompensa: semplificazione eccessiva o incapacità di coprire i casi limite.
- Disallineamento tra obiettivi e ricompense: la funzione di ricompensa non riesce a riflettere pienamente l'obiettivo reale, inducendo l'agente a ottimizzare per l'obiettivo "sbagliato".
- Soluzioni:
- Migliorare la progettazione delle ricompense: introdurre ricompense multidimensionali (ad esempio sicurezza, efficienza, ecc.) o adattare dinamicamente la funzione di ricompensa.
- Verifica avversaria: rilevare se l'agente sta "imbrogliando" attraverso meccanismi aggiuntivi.
- Intervento manuale e vincoli: impostare limiti comportamentali (ad esempio livello di sicurezza) o feedback manuale (ad esempio RLHF).
- Apprendimento con rinforzo inverso (IRL): impara una funzione di ricompensa più realistica da dimostrazioni di esperti.
- Apprendimento tramite rinforzo gerarchico: scomporre il compito in sotto-obiettivi per ridurre il rischio di ottimizzazione locale.
- Associazione con overfitting:
- Entrambi i modelli evidenziano una discrepanza tra le metriche di addestramento e le prestazioni nel mondo reale, ma Reward Hacking pone maggiore enfasi sui difetti di progettazione della funzione di ricompensa piuttosto che sulla capacità di generalizzazione del modello.
- Riepilogo:
- Reward Hacking rivela la sfida dell'allineamento degli obiettivi in RL. Risolvere questo problema richiede una combinazione di progettazione di meccanismi di ricompensa più robusti, introduzione di vincoli esterni e integrazione di conoscenze umane pregresse per garantire che il comportamento dell'agente sia efficiente e in linea con l'intento di progettazione.
3 DeepSeek-R1-Zero e DeepSeek-R1
3.1 Panoramica
Le ricerche precedenti si sono basate in gran parte su grandi quantità di dati supervisionati per migliorare le prestazioni del modello. Questo studio dimostra che anche senza SFT come avvio a freddo, RL su larga scala può migliorare significativamente la capacità di ragionamento del modello. Inoltre, l'introduzione di una piccola quantità di dati di avvio a freddo può ottimizzare ulteriormente le prestazioni. Di seguito sono riportati i modelli correlati a DeepSeek-R1:
- DeepSeek-R1-Zero: questo modello applica RL direttamente al modello base senza alcun dato SFT.
- DeepSeek-R1: Questo modello applica RL partendo da un checkpoint che è stato messo a punto con migliaia di campioni CoT lunghi.
- DeepSeek-R1-Distill-xx: Distilla la capacità di ragionamento di DeepSeek-R1 in un piccolo modello denso.
3.2 DeepSeek-R1-Zero
La figura seguente mostra i punti chiave dell'addestramento del modello DeepSeek-R1-Zero:

PS: Va notato che il documento non fornisce molte informazioni sui dati utilizzati nel processo RL di DeepSeek-R1-Zero. Tuttavia, c'è una spiegazione del processo di generazione dei dati e della quantità nel successivo training R1, sebbene non sia particolarmente specifica.
3.2.1 Algoritmo RL
Per ridurre il costo di formazione di RL, gli autori utilizzano il metodo GRPO (Group Relative Policy Optimization) di DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Questo metodo abbandona il modello Critic, che è solitamente paragonabile per dimensioni al modello Policy, e invece stima la linea di base utilizzando un punteggio di gruppo. La spiegazione corrispondente è mostrata nella figura sottostante (immagine da Twitter):

3.2.2 Modellazione della ricompensa
Le ricompense sono la fonte dei segnali di addestramento e determinano la direzione di ottimizzazione di RL. Per addestrare DeepSeek-R1-Zero, gli autori hanno utilizzato un sistema di ricompense basato su regole, che consiste principalmente in due tipi di ricompense:
- Premio per la precisione: valuta se la risposta è corretta. Ad esempio:
- Nei problemi matematici con risultati deterministici, il modello deve fornire la risposta finale in un formato specifico (ad esempio all'interno di una scatola) in modo che la sua correttezza possa essere verificata in modo affidabile tramite regole.
- Allo stesso modo, per i problemi LeetCode, il feedback può essere generato utilizzando un compilatore basato su casi di test predefiniti.
- Ricompensa del formato: una ricompensa del formato viene anche utilizzata per forzare il modello a collocare il suo processo di pensiero tra " " E " ” tag.
Durante lo sviluppo di DeepSeek-R1-Zero, l'autore non ha utilizzato il modello di ricompensa neurale dell'esito o il modello di ricompensa neurale del processo perché ha scoperto che il modello di ricompensa neurale potrebbe riscontrare spoofing della ricompensa (Reward Hacking) nei processi RL su larga scala; inoltre, la riqualificazione del modello di ricompensa non solo richiede risorse di formazione aggiuntive, ma complica anche l'intero processo di formazione.
3.2.3 Modello di formazione
Per addestrare DeepSeek-R1-Zero, gli autori hanno prima progettato un semplice Template per guidare il modello Base a seguire le istruzioni impostate. Come mostrato nella Tabella 1 di seguito, il Template richiede a DeepSeek-R1-Zero di generare un processo di inferenza e quindi fornire la risposta finale.

L'autore ha deliberatamente limitato i vincoli a questo quadro strutturale per evitare di introdurre qualsiasi distorsione del contenuto (ad esempio, forzando il ragionamento riflessivo o promuovendo strategie specifiche di risoluzione dei problemi) per garantire che l'evoluzione naturale del modello possa essere osservata accuratamente durante il processo RL.
3.2.4 Conclusion
Capacità di ragionamento robuste senza dati SFT: avviando RL direttamente dal modello di base, la traiettoria evolutiva del modello può essere monitorata attentamente senza interferenze SFT. Come mostra la Figura 3 sottostante, il tempo di pensiero di DeepSeek-R1-Zero ha continuato a migliorare (la lunghezza di crescita è gradualmente aumentata) durante il processo di addestramento. Questo miglioramento non è derivato da aggiustamenti esterni, ma è stato un risultato naturale dello sviluppo interno del modello. DeepSeek-R1-Zero ha acquisito naturalmente la capacità di risolvere attività di inferenza sempre più complesse, come la capacità di riflettere, utilizzando calcoli di tempo di test estesi.

DeepSeek-R1-Zero ha sperimentato un "momento di illuminazione" durante l'addestramento. Come mostrato nella Tabella 3 sottostante, questo momento si è verificato durante la fase di versione intermedia del modello. Durante questa fase, DeepSeek-R1-Zero ha imparato ad assegnare più tempo di riflessione ai problemi rivalutando il suo approccio iniziale.

Maggioranza di voto: le prestazioni di DeepSeek-R1-Zero possono essere ulteriormente migliorate applicando la maggioranza di voto. Ad esempio, come mostrato nella Tabella 2 di seguito, dopo che la maggioranza di voto è stata utilizzata nel test di benchmark AIME, le sue prestazioni balzano da 71,0% a 86,7%, superando OpenAI-o1-0912.

Punti deboli: sebbene DeepSeek-R1-Zero dimostri forti capacità di ragionamento e sviluppi autonomamente comportamenti di ragionamento inaspettati e potenti, deve ancora affrontare sfide quali scarsa leggibilità e confusione nei linguaggi.
3.3 DeepSeek-R1
Per rendere il processo di Ragionamento più leggibile e condividerlo con la comunità aperta, gli autori esplorano ulteriormente il metodo DeepSeek-R1, che utilizza dati di avvio a freddo di facile utilizzo per l'uomo per RL. Ispirati da DeepSeek-R1-Zero, seguono due domande naturali:
- È possibile migliorare ulteriormente le prestazioni del ragionamento o accelerare il processo di convergenza introducendo una piccola quantità di dati di alta qualità come avvio a freddo?
- Come possiamo addestrare un modello di facile utilizzo che non solo generi CoT chiari e coerenti, ma dimostri anche forti capacità di generalizzazione?
In risposta a queste domande, abbiamo progettato un processo di formazione per DeepSeek-R1. Il processo consiste in più fasi, come descritto di seguito:
La fase 1, come mostrato nella figura sottostante, addestra lo stato intermedio di DeepSeek-R1 tramite SFT + RL:

La figura seguente mostra le fasi 2, 3 e 4:
- Fase 2: in alto a sinistra, costruire 200K dati non-Reasoning e 600K dati-Reasoning.
- Fase 3: in alto a destra, treno SFT + RL DeepSeek-R1.
- Fase 4: cifra inferiore, Distill DeepSeek-R1-Distill-xx.

3.3.1 Avvio a freddo (fase 1)
A differenza di DeepSeek-R1-Zero, per prevenire la fase instabile di Cold Start del modello Base all'inizio dell'addestramento RL, gli autori hanno creato e raccolto una piccola quantità di dati Long CoT per DeepSeek-R1 per mettere a punto il modello come attore RL iniziale. Per raccogliere questi dati, gli autori hanno esplorato vari metodi:
- Utilizzo di prompt a pochi scatti con esempi di CoT lunghi
- Sollecitare direttamente il modello a generare risposte dettagliate con riflessione e verifica
- Raccolta dell'output DeepSeek-R1-Zero in un formato leggibile dall'uomo
- Affinamento dei risultati tramite post-elaborazione con etichettatura manuale
Gli autori hanno raccolto un totale di migliaia di dati Cold Start, che sono stati utilizzati per mettere a punto DeepSeek-V3-Base come punto di partenza per RL. Rispetto a DeepSeek-R1-Zero, i vantaggi dei dati Cold Start includono
- Leggibilità: le risposte DeepSeek-R1-Zero possono essere miste in più lingue o non avere la formattazione Markdown utilizzata per evidenziare le risposte degli utenti. Al contrario, quando si creano dati Cold Start per DeepSeek-R1, l'autore ha progettato un formato leggibile che include un riepilogo alla fine di ogni risposta e filtra le risposte illeggibili. Qui, il formato di output è definito come |special_token| |token_speciale|
, dove reasoning_process è il ragionamento concatenato della query e summary viene utilizzato per riassumere i risultati del ragionamento. - Potenziale: progettando attentamente una combinazione di modelli di dati Cold Start a priori basati sull'uomo, gli autori hanno osservato che le sue prestazioni sono superiori a quelle di DeepSeek-R1-Zero.
3.3.2 RL guidata dal ragionamento (fase 1)
Dopo aver messo a punto DeepSeek-V3-Base sui dati Cold Start, viene utilizzato lo stesso processo di training RL su larga scala di DeepSeek-R1-Zero. Questa fase mira a migliorare la capacità del modello in attività ad alta intensità di ragionamento, in particolare su problemi di programmazione, matematica, scienza e ragionamento logico con soluzioni chiare.
Durante l'addestramento, gli autori hanno osservato che CoT spesso soffriva di mescolanza linguistica, specialmente quando il prompt RL coinvolgeva più lingue. Per alleviare il problema della mescolanza linguistica, gli autori hanno introdotto una ricompensa di coerenza linguistica nell'addestramento RL, che viene calcolata in base alla proporzione di parole nella lingua di destinazione in CoT. Sebbene gli esperimenti di ablazione mostrino che questo metodo di allineamento porta a una leggera diminuzione delle prestazioni del modello, questo meccanismo di ricompensa è coerente con le preferenze umane e migliora la leggibilità. Infine, gli autori aggiungono direttamente l'accuratezza del compito di ragionamento alla ricompensa di coerenza linguistica per formare la ricompensa finale e implementano l'addestramento RL sul modello perfezionato finché non converge sul compito di ragionamento.
3.3.3 Costruzione di 800.000 dati selezionati (Fase 2)
Mentre RL for Reasoning converge, i dati SFT vengono raccolti utilizzando il checkpoint risultante per il successivo round di training. A differenza dei dati iniziali Cold Start, che si concentrano principalmente su Reasoning, questa fase incorpora dati da altri domini per migliorare la capacità del modello di scrivere, interpretare ruoli e svolgere altre attività di uso generale. In particolare, i dati vengono generati e il modello viene messo a punto come segue:
- Dati di ragionamento: vengono selezionati i prompt di ragionamento e vengono generate le traiettorie di ragionamento eseguendo il campionamento di rifiuto dal Checkpoint addestrato RL sopra menzionato (DeepSeek-R1 Fase 1). Nella fase precedente, sono stati inclusi solo i dati che potevano essere valutati utilizzando ricompense basate su regole. Tuttavia, in questa fase, il set di dati è stato ampliato includendo più dati, alcuni dei quali sono stati generati utilizzando un modello di ricompensa, e le risposte reali sono state giudicate inserendo le previsioni del modello in DeepSeek-V3 (DeepSeek V3 come giudice). Inoltre, poiché l'output del modello è a volte confuso e difficile da leggere, sono state filtrate catene di pensiero in linguaggio misto, paragrafi lunghi e blocchi di codice. Per ogni prompt, sono state campionate più risposte e sono state mantenute solo quelle corrette (Best-of-N). In totale, sono stati raccolti circa 600.000 campioni di addestramento correlati al ragionamento.
- Dati non-Reasoning: come scrittura, domande factoid, autoconsapevolezza e traduzione, hanno utilizzato il processo DeepSeek-V3 e riutilizzato alcuni dei dataset SFT di DeepSeek-V3. Per alcune attività non-Reasoning, DeepSeek-V3 viene chiamato a generare potenziali CoT prima di rispondere alla domanda. Tuttavia, per query semplici come "Hello", non viene fornita alcuna catena di pensiero nella risposta. Alla fine, sono stati raccolti un totale di circa 200.000 campioni di addestramento non-Reasoning.
3.3.4 SFT e RL per tutti gli scenari (Fase 3)
Sono stati eseguiti due cicli di messa a punto su un totale di circa 800.000 campioni selezionati su DeepSeek-V3-Base utilizzando i due set di dati sopra menzionati (Reasoning e non-Reasoning).
Per allineare ulteriormente il modello alle preferenze umane, gli autori hanno implementato una seconda fase di RL, che mira a migliorare l'utilità e l'innocuità del modello, perfezionandone al contempo le capacità di ragionamento. Nello specifico, il modello è stato addestrato con una combinazione di segnali di ricompensa e diverse distribuzioni di prompt.
- Per i dati di ragionamento, viene seguita la metodologia descritta in DeepSeek-R1-Zero, utilizzando un meccanismo di ricompensa basato su regole per guidare l'apprendimento del modello nelle aree della matematica, della programmazione e del ragionamento logico.
- Per i dati generali, il modello Reward viene utilizzato per catturare le preferenze umane in situazioni complesse e sottili. Una strategia simile di coppie di preferenze e distribuzioni di prompt di training viene utilizzata in base al processo DeepSeek-V3.
- In termini di utilità, viene preso in considerazione solo il riepilogo finale, assicurando che la valutazione si concentri sulla praticità e sulla pertinenza della risposta per l'utente, riducendo al minimo l'interferenza con il processo di ragionamento sottostante.
- Per quanto riguarda l'innocuità, l'intera risposta del modello viene valutata in modo completo, incluso il processo di ragionamento e la sintesi, per identificare ed eliminare potenziali rischi, pregiudizi o contenuti dannosi che potrebbero sorgere durante il processo di generazione.
- In definitiva, integrando i segnali di ricompensa e diversificando la distribuzione dei dati, è possibile addestrare un modello che dia priorità sia al beneficio che all'innocuità, eccellendo anche nel ragionamento.
3.3.5 Distillazione (Fase 4)
Per dotare un piccolo modello più efficiente della capacità di ragionamento di DeepSeek-R1, gli autori hanno perfezionato direttamente i modelli open source Qwen e LLaMA utilizzando gli 800.000 campioni selezionati in DeepSeek-R1-Stage-1. I risultati mostrano che questo metodo di distillazione diretta migliora significativamente la capacità di ragionamento dei piccoli modelli. I modelli di base utilizzati dagli autori includono Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B e Llama-3.3-70B-Instruct. Llama-3.3 è stato selezionato perché la sua capacità di ragionamento è leggermente migliore di Llama-3.1.
Per il modello di distillazione, l'autore utilizza solo SFT e non include la fase RL. Sebbene l'introduzione di RL possa migliorare notevolmente le prestazioni del modello, lo scopo principale dell'autore qui è dimostrare l'efficacia della tecnologia di distillazione e l'esplorazione della fase RL è lasciata a ricerche successive.
PS: Inoltre, è effettivamente possibile utilizzare l'DeepSeek-R1 finale per generare i dati di cui sopra e ricostruire gli 800.000 dati utilizzati per la distillazione; il modello distillato potrebbe avere un effetto migliore; tuttavia, il prezzo da pagare è che i dati devono essere ricostruiti.