Oggi vorrei condividere un articolo di DeepSeek, intitolato DeepSeekMath: spingere i limiti del ragionamento matematico nei modelli di linguaggio aperto.
Questo articolo introduce DeepSeekMath 7B, che è pre-addestrato su DeepSeek-Coder-Base-v1.5 7B basato su una raccolta di 120B token correlati alla matematica, linguaggio naturale e dati di codice.
Il modello ha ottenuto un sorprendente punteggio di 51,7% nei benchmark MATH di livello competitivo senza fare affidamento su toolkit esterni e tecniche di voto, avvicinandosi al livello di prestazioni di Gemini-Ultra e GPT-4.
La capacità di ragionamento matematico di DeepSeekMath 7B è attribuita a due fattori chiave: in primo luogo, attraverso un pipeline di selezione dei dati attentamente progettata, dati di alta qualità relativi alla matematica vengono estratti in modo iterativo da dati web disponibili al pubblico.
In secondo luogo, l'ottimizzazione della politica relativa del gruppo (GRPO) è introdotta, che è una variante dell'ottimizzazione della politica prossimale (PPO) in grado di migliorare la capacità di ragionamento matematico ottimizzando al contempo l'utilizzo della memoria della PPO.
- Le caratteristiche del metodo sono riassunte come segue:Un corpus di pre-addestramento matematico di alta qualità è stato costruito ed è stata utilizzata una pipeline attentamente progettata per estrarre dati matematici di alta qualità da Common Crawl.
- L'algoritmo GRPO è stato proposto, che riduce le risorse necessarie per la formazione e migliora la capacità di ragionamento matematico del modello. 3) Prestazioni all'avanguardia era ottenuto in molteplici test di benchmark di ragionamento matematico.
Panoramica
Titolo: DeepSeekMath: Spingere i limiti del ragionamento matematico nei modelli di linguaggio aperto
Indirizzo: clicca qui
Autori: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Codice: clicca qui
Motivazione
Il ragionamento matematico pone una sfida significativa ai modelli linguistici a causa della complessità e della natura strutturata della matematica. I modelli più avanzati, come GPT-4 e Gemini-Ultra, sono potenti ma non disponibili al pubblico. Pertanto, vi è un notevole margine di miglioramento nelle prestazioni di modelli open source.
Complessità e struttura: Il ragionamento matematico rappresenta una sfida significativa per i modelli linguistici a causa della complessità e della natura strutturata della matematica.
Potenziale dei dati pubblici: I dati web accessibili al pubblico potrebbero contenere informazioni matematiche approfondite che devono ancora essere analizzate e utilizzate.
Metodi
Raccolta dati: È stato creato un corpus DeepSeekMath di 120 miliardi di token raccogliendo dati web di alta qualità relativi alla matematica da Common Crawl tramite una pipeline iterativa.
Formazione del modello: Il corpus è stato utilizzato per il pre-addestramento su DeepSeek-Coder-Base-v1.5 7B e sono stati applicati l'algoritmo di messa a punto delle istruzioni matematiche e l'algoritmo di ottimizzazione delle policy relative al gruppo (GRPO).
Algoritmo GRPO: GRPO è un algoritmo di apprendimento per rinforzo migliorato che rimuove il modello Critic in PPO e stima la linea di base dal punteggio di gruppo, riducendo così significativamente le risorse di formazione.
Metodi e procedure dettagliate:
Raccolta ed elaborazione dei dati:

Build DeepSeekMath Corpus: Utilizzando un classificatore basato su fastText, estrai 120B token correlati alla matematica da Common Crawl per creare un corpus pre-addestrato di alta qualità e su larga scala, il corpus DeepSeekMath.
Filtraggio iterativo dei dati: Viene utilizzata una strategia iterativa, utilizzando OpenWebMath come dati iniziali per addestrare un classificatore iniziale, e quindi utilizzando questo classificatore per estrarre esempi più positivi da Common Crawl, che vengono annotati manualmente per ottimizzare costantemente le prestazioni del classificatore.
Funzionalità multilingue: Il corpus DeepSeekMath contiene dati multilingue, che migliora le prestazioni del modello nei benchmark matematici cinesi.
Elaborazione di de-inquinamento: De-l'elaborazione dell'inquinamento viene eseguita sui dati di addestramento per evitare sovrapposizioni con il benchmark di prova.
Pre-allenamento:
Inizializzazione del modello basata sul codice: Inizializzazione tramite DeepSeek-Coder-Base-v1.5 7B si è scoperto che il modello è più efficace dell'inizializzazione da un LLM generale.
Composizione dei dati di pre-addestramento: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% codice Github, 10% Common Crawl dati in linguaggio naturale.
Parametri di pre-allenamento: Viene utilizzato l'ottimizzatore AdamW, con un tasso di apprendimento di 4,2e-4, una dimensione del batch di 10 milioni di token e un addestramento di 500 miliardi di token.
Ottimizzazione delle istruzioni:
Costruisci un set di dati per la messa a punto delle istruzioni: Costruire un set di dati di messa a punto delle istruzioni matematiche contenente 776K campioni, che coprono una varietà di campi matematici e livelli di difficoltà, inclusi CoT, PoT e formati di inferenza integrati con strumenti per la risoluzione dei passaggi.
Parametri di allenamento: Dimensione del lotto 256, velocità di apprendimento 5e-5, addestramento per 500 passi.
Apprendimento per rinforzo – Ottimizzazione delle politiche relative di gruppo (GRPO):
Proponi l'algoritmo GRPO: Proponi un Algoritmo variante PPO GRPO, che evita la necessità di un modello critico utilizzando punteggi di gruppo per stimare la linea di base, riducendo così le risorse di formazione.
Funzione obiettivo: GRPO ottimizza il modello di politica massimizzando una funzione obiettivo che tiene conto del vantaggio relativo degli output in-group e aggiunge direttamente la divergenza KL come termine di regolarizzazione.
Calcolo del vantaggio: GRPO calcola il vantaggio attraverso ricompense relative all'interno del gruppo, evitando confronti tra gruppi e conformando meglio la natura comparativa del modello di ricompensa.
Supporta sia il monitoraggio dei risultati che dei processi: GRPO può supportare sia il monitoraggio dei risultati che dei processi e monitorare in modo più efficace la politica offrendo ricompense alla fine di ogni fase di inferenza.
RL iterativo: Utilizza un strategia RL iterativa per generare un nuovo set di addestramento basato sui risultati del campionamento del modello di policy, addestrare continuamente il vecchio modello di ricompensa e utilizzare il nuovo modello di ricompensa per aggiornare il modello di policy.
Dati di allenamento: Utilizza i problemi in formato CoT relativi a GSM8K e MATH nei dati SFT, circa 144K problemi.
Parametri di allenamento: Il tasso di apprendimento del modello di policy è 1e-6, il coefficiente KL è 0,04, per ogni problema vengono campionati 64 output, la lunghezza massima è 1024 e la dimensione del batch di addestramento è 1024.
Conclusione

Conclusione 1:DeepSeekMath 7B supera tutti i modelli open source nella capacità di ragionamento matematico. Nel test di riferimento competitivo MATH, DeepSeekMath 7B ha raggiunto una precisione di 51,7%, che è vicina al livello di prestazioni di Gemini-Ultra e GPT-4.
Conclusione 2:Per il successo del modello sono essenziali dati di pre-addestramento ben progettati e algoritmi GRPO. La combinazione di un corpus matematico di alta qualità e di algoritmi GRPO consente al modello di ottenere significativi miglioramenti delle prestazioni nei compiti di ragionamento matematico.
Conclusione 3:L'addestramento al codice aiuta a migliorare la capacità di ragionamento matematico. L'aggiunta di dati di codice alla fase di pre-addestramento può migliorare la capacità del modello di risolvere problemi matematici, sia con che senza strumenti.
Conclusione 4: Utilità limitata dei dati arXiv: Contrariamente a quanto si pensava in precedenza, i dati arXiv si sono rivelati di scarso aiuto nel migliorare il ragionamento matematico.
Limitazione
Le capacità di geometria e di dimostrazione sono relativamente deboli: Sebbene DeepSeekMath eccella nel ragionamento quantitativo, le sue capacità in geometria e dimostrazione sono ancora inferiori ai modelli closed-source. Ciò potrebbe essere dovuto alla selezione distorta dei dati nelle fasi di pre-addestramento e di messa a punto.
Debolezza nella piccola capacità del campione: DeepSeekMath è inferiore a GPT-4 in termini di apprendimento su campioni di piccole dimensioni, il che potrebbe essere dovuto alla limitazione delle dimensioni del modello.
Sono necessari metodi di apprendimento rinforzato più efficienti: Sebbene i metodi di apprendimento per rinforzo proposti nel documento siano efficaci, c'è ancora margine di miglioramento, ad esempio su come sfruttare in modo più efficace il feedback del modello di ricompensa e come gestire i segnali di ricompensa rumorosi.
Dettagli
Esplorazione e analisi dell'apprendimento tramite rinforzo
Panoramica:
Introduzione dell'ottimizzazione delle politiche relative di gruppo (GRPO): Il documento propone un nuovo algoritmo di apprendimento di rinforzo, GRPO, come variante di Proximal Policy Optimization (PPO). La caratteristica principale di GRPO è che abbandona il modello Critic comunemente utilizzato in PPO e stima la linea di base attraverso punteggi di gruppo, riducendo così notevolmente le risorse computazionali necessarie per l'addestramento.
Dimostrazione dell'efficacia del GRPO: Il documento dimostra sperimentalmente che GRPO può migliorare efficacemente le prestazioni dei modelli di messa a punto dei comandi, inclusi i compiti matematici sia in-domain che out-of-domain.
Quadro unificato per metodi di apprendimento rinforzato: Il documento propone un quadro unificato per comprendere diversi metodi di apprendimento tramite rinforzo, come Ottimizzazione fine del campionamento di rifiuto (RFT), ottimizzazione delle preferenze dirette (DPO), PPO e GRPOIl framework tratta questi metodi come tecniche di apprendimento tramite rinforzo diretto o semplificato.
Esplorazione approfondita degli elementi dell'apprendimento tramite rinforzo: Il documento esplora in profondità elementi chiave dell'apprendimento per rinforzo, come la formazione online e la formazione offline, la supervisione dei risultati e la supervisione dei processi, l'apprendimento per rinforzo a round singolo e l'apprendimento per rinforzo iterativo, attraverso esperimenti dettagliati, e riassume le possibili direzioni per migliorare l'efficacia dell'apprendimento per rinforzo.
Algoritmo GRPO (Group Relative Policy Optimization)

Limitazioni di PPO: PPO è un algoritmo di apprendimento di rinforzo comunemente utilizzato, ma richiede l'addestramento di un modello Critico aggiuntivo per stimare la funzione valore, che impone un ulteriore onere computazionale e di memoriaInoltre, nello scenario LLM, La formazione del modello critico può essere complicata perché richiede la valutazione l'output di ciascun token.
L'idea fondamentale del GRPO: L'idea fondamentale del GRPO è quella di abbandonare il modello Critic e utilizzare invece il punteggio medio di un set di output per lo stesso problema come baseline. Questa baseline può essere utilizzata per stimare la funzione di vantaggio e per l'ottimizzazione delle policyQuesto approccio riduce significativamente la complessità della formazione.
Calcolo della funzione vantaggio: GRPO calcola la funzione vantaggio da calcolando la classifica relativa di ogni output nello stesso set di output, piuttosto che basarsi su una funzione di valore separata come in PPO.
Penalità per divergenza KL: GRPO non aggiunge una penalità di divergenza KL alla ricompensa come PPO, ma aggiunge invece la divergenza KL tra il modello di policy e il modello di riferimento direttamente alla funzione di perdita. Ciò evita il complesso calcolo della funzione di vantaggio.
L'idea centrale del GRPO
non richiede un critico (funzione valore): GRPO evita la necessità di una funzione valore e utilizza il punteggio all'interno del gruppo per stimare la linea di base, riducendo così le risorse destinate alla formazione.
Vantaggio relativo intra-gruppo: Per ogni problema q, GRPO campiona un insieme di output {o(1), o(2), …, o(G)} dalla vecchia politica π(θold) e quindi ottimizza il modello di politica massimizzando la seguente equazione come funzione obiettivo.

Nello specifico:

La chiave qui è Â(i,t), che rappresenta il vantaggio ed è calcolato da ricompensa relativa dell'output intra-gruppo, anziché basarsi su una funzione valore separata come in PPO.

La funzione obiettivo aggiunge anche direttamente Divergenza KL come termine di regolarizzazione per controllare l'entità di aggiornamenti delle politiche

e si allineano con la natura comparativa del modello di ricompensa: GRPO utilizza la ricompensa intragruppo relativa per calcolare il vantaggio, il che è più coerente con la natura del modello di ricompensa, che solitamente viene addestrato sulla base del confronto a coppie.
Come può essere progettato il modello di ricompensa del GRPO (fare riferimento a DeepSeek R1)?
Caratteristiche:
formato ricompensa: forza la generazione di lunghi culla risultati, che possono spingere il modello a generare processi di inferenza e migliorare l'effetto inferenziale del modello.
ricompensa per la precisione: la matematica può utilizzare il risultato finale e il codice può utilizzare il feedback del compilatore.
Vantaggi del GRPO
Minore occupazione di memoria: non è richiesto alcun modello Critic, riducendo i requisiti di memoria.
Formazione più efficiente: il calcolo utilizzando il vantaggio relativo intra-gruppo semplifica il processo di formazione.
Più compatibile con la natura dei modelli di ricompensa: migliora la stabilità e l'efficienza dell'allenamento.
Riepilogo del paradigma unificato RL
Paradigma unificato proposto
Gli autori propongono un paradigma unificato per comprendere diversi metodi di addestramento quali SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, ecc. Elementi chiave RL: Gli elementi chiave del framework unificato includono: fonti di dati, funzioni di ricompensa e algoritmi.
- Fonte dei dati: Si riferisce ai dati utilizzati per la formazione, che possono essere derivati da etichettatura manuale, modelli SFT o modelli di policy in tempo reale.
- Funzione di ricompensa: Si riferisce alla funzione utilizzata per valutare la qualità dell'output, che può essere una regola o un modello.
- Algoritmo: Si riferisce al metodo utilizzato per elaborare i dati e il segnale di ricompensa e aggiornare i parametri del modello.
Analisi di diversi metodi basati su un paradigma unificato
La tabella 10 riassume le somiglianze e le differenze tra SFT, RFT, DPO, RFT online, PPO e GRPO in termini di fonti di dati, funzioni di ricompensa e coefficienti di gradiente.
Metodo | Dati di formazione | Funzione di ricompensa | Coefficiente di gradiente | Metodo di allenamento | Vantaggi/caratteristiche | Scenari applicabili |
SFT | Dati SFT etichettati manualmente | Selezionato manualmente (ricompensa implicita) | Fissato a 1 | Apprendimento supervisionato | Semplice e stabile, dipendente da dati etichettati di alta qualità | Formazione di base sul modello, attività di allineamento iniziale |
RFT | Problema del set di dati SFT + Esempio di output del modello SFT | In base alla correttezza della risposta (giudizio della regola) | 0 (sbagliato) o 1 (corretto) | Ottimizzazione delle policy offline | Calcolo efficiente, utilizzo diretto del feedback delle regole | Compiti matematici/logici con regole chiare |
Responsabile della protezione dei dati | Problema del set di dati SFT + modello di output per | Etichettatura delle preferenze umane o confronto delle regole | Sulla base del calcolo della probabilità di preferenza (ad esempio, modello Bradley-Terry) | Apprendimento comparativo | Evita la modellazione esplicita delle ricompense, ottimizzando direttamente le preferenze | Attività di allineamento delle preferenze umane (ad esempio, generazione di dialoghi) |
RFT in linea | Campionamento del modello di policy in tempo reale coppie problema-output | In base alla correttezza della risposta (giudizio della regola) | 0 (sbagliato) o 1 (corretto) | Ottimizzazione delle policy online | Aggiorna dinamicamente le policy con ottimizzazione del feedback in tempo reale | Scenari che richiedono interazione online (ad esempio, intelligenza artificiale di gioco) |
PPO | Problema del set di dati SFT + output di campionamento del modello di politica | Modello di ricompensa (RM) addestrato | Funzione di dominanza (basata sulla stima della ricompensa) | Metodo del gradiente della politica | Efficiente e stabile, supporta l'ottimizzazione multi-step | Attività complesse (ad esempio generazione di testo, controllo robot) |
GRPO | Problema del set di dati SFT + output di campionamento del modello di policy | Modello di ricompensa (RM) addestrato | Ricompensa relativa intra-gruppo (confronto normalizzato) | Ottimizzazione dei criteri di gruppo | Ridurre la varianza delle ricompense e migliorare il confronto intra-gruppo | Attività con elevata varianza (ad esempio generazione di testo lungo) |
Osservazioni sulle fonti dei dati

Formazione online vs offline: La formazione online si riferisce all'utilizzo dell'output del modello di policy in tempo reale come dati di formazione, mentre la formazione offline si riferisce all'utilizzo dell'output di un modello fisso (come il modello SFT) come dati di formazione. I risultati sperimentali mostrano che la formazione online è generalmente migliore della formazione offline.
Supervisione dei risultati vs supervisione dei processi: La supervisione dell'esito si riferisce alla ricompensa solo dell'ultimo passaggio dell'output, mentre la supervisione del processo si riferisce alla ricompensa di ogni passaggio del processo di ragionamento. I risultati sperimentali mostrano che la supervisione del processo è più efficace nei compiti complessi.
Apprendimento per rinforzo iterativo vs. episodio singolo: L'apprendimento di rinforzo a episodio singolo si riferisce a un'ottimizzazione di strategia singola, mentre l'apprendimento di rinforzo iterativo si riferisce all'aggiornamento continuo del modello di ricompensa dopo più ottimizzazioni di strategia. I risultati sperimentali mostrano che l'apprendimento iterativo tramite rinforzo può migliorare significativamente le prestazioni, soprattutto nella prima iterazione.
Osservazione dei coefficienti di gradiente
Basato su regole vs. basato su modelli: La regola si riferisce alla determinazione della ricompensa in base alla correttezza della risposta, mentre il modello si riferisce all'addestramento di un modello di ricompensa per l'assegnazione di un punteggio.
Differenza nei coefficienti di gradiente: La differenza fondamentale tra GRPO e Con l'RFT online, GRPO adatta i suoi coefficienti di gradiente in base ai valori di ricompensa forniti dal modello di ricompensa, mentre con l'RFT online non lo fa.
Vantaggi del GRPO: Gli esperimenti dimostrano che GRPO è superiore a Online RFT, dimostrando l'efficacia della modifica del segno dei coefficienti di gradiente. GRPO+PS è superiore a GRPO+OS, dimostrando i vantaggi dell'utilizzo di coefficienti di gradiente a grana fine e step-aware.
Efficacia RL e indicazioni per il miglioramento
Perché la RL è efficace?

Risultati sperimentali: RL migliora le prestazioni di Maj@K ma non di Pass@K.
Spiegazione: RL migliora le prestazioni complessive del modello rendendo più solida la distribuzione dell'output, ovvero migliora la probabilità di risposte corrette in TopK, anziché potenziare la capacità di base del modello.
Come si può ottenere una RL più efficace?
Sulla base del paradigma unificato, gli autori propongono direzioni future per migliorare l'apprendimento della vita reale sotto tre aspetti: fonti di dati, algoritmi e funzioni di ricompensa.
- Fonti dei dati:
- Esplorare problematiche che vanno oltre la fase SFT.
- Utilizzare strategie di campionamento (decodifica) più avanzate, come i metodi basati sulla ricerca ad albero.
- Utilizzare tecniche di inferenza efficienti per migliorare l'efficienza di esplorazione del modello di policy.
- Algoritmo:
- Esplora algoritmi di apprendimento tramite rinforzo che siano più resistenti ai segnali di ricompensa rumorosi.
- Studia i metodi di allineamento di tipo DEBOLE-FORTE.
- Funzione di ricompensa:
- Migliorare la capacità di generalizzazione del modello di ricompensa per gestire problemi fuori distribuzione e output decodificati avanzati.
- Rifletti l'incertezza del modello di ricompensa e usala come ponte per collegare i modelli di ricompensa deboli e gli algoritmi di apprendimento DA DEBOLE A FORTI.
- Costruire in modo efficiente modelli di ricompensa di processo di alta qualità per fornire segnali di addestramento dettagliati per il processo di inferenza.
Sintesi
DeepSeekMath ha migliorato significativamente la capacità dei modelli di linguaggio open source nel ragionamento matematico, costruendo un corpus matematico su larga scala e proponendo un nuovo algoritmo di apprendimento per rinforzo. I punti salienti di questo articolo sono
- la costruzione e la convalida del corpus DeepSeekMath, un corpus matematico multilingue, di ampia scala e di alta qualità.
- Viene proposto un algoritmo di apprendimento per rinforzo efficiente, GRPO, per ridurre l'utilizzo della memoria migliorando al contempo la capacità di ragionamento matematico del modello.
- L'impatto dell'addestramento del codice sulla capacità di ragionamento matematico è discusso in modo approfondito e si è scoperto che i dati arXiv hanno un effetto limitato. Il valore di DeepSeekMath:
- Fornisce alla comunità open source un potente modello di ragionamento matematico e promuove lo sviluppo dell'intelligenza artificiale matematica.
- Fornisce esperienze e metodi preziosi per la creazione di corpora matematici e l'addestramento di modelli di ragionamento matematico.
- L'algoritmo GRPO proposto fornisce nuove idee per l'addestramento basato sull'apprendimento per rinforzo in altri campi.