Oggi condivideremo DeepSeek R1, Titolo: DeepSeek-R1: Incentivare la capacità di ragionamento negli LLM tramite apprendimento per rinforzo: Incentivare la capacità di ragionamento degli LLM tramite apprendimento per rinforzo.
Questo documento introduce la prima generazione di modelli di ragionamento di DeepSeek, DeepSeek-R1-Zero e DeepSeek-R1Il modello DeepSeek-R1-Zero è stato addestrato tramite apprendimento di rinforzo su larga scala (RL) senza messa a punto supervisionata (SFT) come fase iniziale, dimostrando il potenziale di RL e le capacità di ragionamento superiori porta. Attraverso l'apprendimento per rinforzo, DeepSeek-R1-Zero è emerso naturalmente con molti comportamenti di ragionamento potenti e interessantiPer ottimizzare ulteriormente alcuni dei problemi con R1-Zero (confusioni linguistiche, capacità di generalizzazione migliorata), hanno rilasciato DeepSeek-R1, che combina l'addestramento multi-fase e la messa a punto dei dati a freddo prima dell'apprendimento per rinforzo. DeepSeek-R1 ha ottenuto prestazioni comparabili sul compito di ragionamento con OpenAI-01-1217. Per supportare la comunità di ricerca, hanno DeepSeek-R1-Zero open source, DeepSeek-R1 e sei modelli densi (1,5B, 7B, 8B, 14B, 32B, 70B) distillati da DeepSeek-R1, che sono basati su Qwen e Llama.
Le caratteristiche del metodo sono riassunte come segue:
- L'apprendimento per rinforzo viene applicato direttamente al modello di base, senza ricorrere alla messa a punto fine supervisionata (SFT) come fase iniziale.
- Viene introdotto il processo di sviluppo DeepSeek-R1, che combina due fasi di apprendimento di rinforzo e due fasi di messa a punto supervisionata per gettare le basi per le capacità di ragionamento e non ragionamento del modello.
- Le prestazioni dei piccoli modelli nei compiti di ragionamento vengono migliorate trasferendo i modelli di ragionamento dei grandi modelli ai piccoli modelli attraverso tecniche di distillazione.
Panoramica
- Titolo: DeepSeek-R1: Incentivare la capacità di ragionamento negli LLM tramite apprendimento rinforzato
- Autori: DeepSeek-AI
- Italiano: deepseek R1
Motivazione
- Gli attuali modelli linguistici di grandi dimensioni (LLM) hanno compiuto notevoli progressi nei compiti di inferenza, ma devono ancora affrontare delle sfide.
- Il potenziale del puro l'apprendimento per rinforzo (RL) nel migliorare la capacità di ragionamento degli LLM non è stato ancora pienamente esplorato, soprattutto senza fare affidamento su dati supervisionati.
- Modelli addestrati tramite RL, come DeepSeek-R1-Zero, presentano problemi di leggibilità e di mescolanza di lingue (ad esempio, parlano cinese e inglese mescolati) e necessitano di ulteriori miglioramenti per migliorare la facilità d'uso.
Metodi

DeepSeek-R1-Zero: Utilizza DeepSeek-V3-Base come modello base e GRPO (Group Relative Policy Optimization) come apprendimento di rinforzo struttura, senza dati supervisionati per migliorare le prestazioni del modello nell'inferenza.
Modello DeepSeek-R1:
- Avvio a freddo: Raccoglie una piccola quantità di dati CoT (Chain-of-Thought) lunghi e di alta qualità e ottimizza il Modello base DeepSeek-V3 come attore iniziale dell'apprendimento per rinforzo.
- Apprendimento per rinforzo orientato al ragionamento: Lo stesso viene applicato il processo di addestramento tramite apprendimento di rinforzo come DeepSeek-R1-Zero, ma con un focus sul miglioramento delle capacità di ragionamento del modello in aree quali la codifica, la matematica, la scienza e il ragionamento logico. Le ricompense per la coerenza linguistica vengono introdotte per mitigare il problema della mescolanza linguistica che si verifica in CoT.
- Campionamento di rifiuto e messa a punto supervisionata: Utilizza il checkpoint convergente dell'apprendimento per rinforzo per raccogliere dati di Supervised Fine-Tuning (SFT) per la formazione successiva.
- Apprendimento tramite rinforzo per tutti gli scenari: implementa una fase di apprendimento tramite rinforzo di secondo livello, che mira a migliorare l' utilità e innocuità del modello, ottimizzandone al contempo la capacità di ragionamento.
- Distillazione della conoscenza: Ottimizza direttamente i modelli open source Qwen e Llama utilizzando gli 800k campioni curati da DeepSeek-R1.
Metodi e procedure dettagliate:

DeepSeek-R1-Zero: Apprendimento tramite rinforzo per modelli base
- Algoritmo di apprendimento per rinforzo: Utilizza l'algoritmo Group Relative Policy Optimization (GRPO), che non richiede un critico modello, stima la linea di base in base ai punteggi di gruppo e riduce i costi di formazione.
- Modellazione della ricompensa: Utilizza un sistema di ricompensa basato su regole, compreso

- ricompensa per la precisione: Valuta se la risposta è corretta, come la correttezza del risultato finale dell' risposta al problema di matematica, il feedback del compilatore per i problemi di codice.
- Formato ricompensa: Incoraggia il modello a collocare il processo di pensiero tra
e
etichette.
Modello di formazione: Un modello contenente e
i tag sono progettati per guidare il modello per produrre prima il processo di pensiero e poi la risposta finale.

- Processo autoevolutivo: DeepSeek-R1-Zero dimostrato caratteristiche autoevolutive durante l'addestramento, ed è stato in grado di apprendere autonomamente strategie di ragionamento più complesse, come la riflessione e l'esplorazione di molteplici percorsi di risoluzione dei problemi.

DeepSeek-R1: Apprendimento tramite rinforzo combinato con avvio a freddo

- Avvio a freddo: Per risolvere DeepSeek-R1-Zero problema di leggibilità, DeepSeek-R1 raccoglie prima una piccola quantità di dati CoT di alta qualità e ottimizza il modello DeepSeek-V3-Base per fungere da attore iniziale per l'apprendimento rinforzatoI dati di avvio a freddo contiene tag di riepilogo e risposte ostili vengono filtrati.
- Metodo: 1) Selezionare dati Long COT di alta qualità. 2) Aggiungere tag.
- Vantaggi: 1) Leggibilità ottimizzata (risolve il problema multilingue di R1-Zero o il problema del formato markdown). 2) I dati attentamente selezionati e preferiti dagli esseri umani possono continuare a migliorare le prestazioni su R1-Zero.
- Domanda: perché risolvere il problema di leggibilità? Non è possibile fare di meglio senza risolverlo (ad esempio, riducendo la lunghezza dell'output e inferendo in modo più efficiente)?
- RL orientato al ragionamento: Sulla base del modello di avvio a freddo, un processo di apprendimento per rinforzo simile a Viene applicato DeepSeek-R1-Zero, concentrandosi sul miglioramento della capacità del modello in attività quali codifica, matematica, ragionamento scientifico e logico. Per risolvere il problema delle lingue miste (ragionamento multi-lingua), la coerenza linguistica premia vengono introdotti.
- Domanda: Come vengono addestrati i compiti di ragionamento scientifico e logico e i set di dati?
- Campionamento di rifiuto e SFT: Dopo che l'apprendimento per rinforzo guidato dall'inferenza converge, il checkpoint ottenuto viene utilizzato per campionamento di rifiuto per generare nuovi dati SFT, che vengono combinati con i dati di DeepSeek-V3 per migliorare le capacità del modello nella scrittura, nel gioco di ruolo e nelle attività generali.
- Scopo:
- Questa fase viene avviata dopo la il processo di apprendimento rinforzato (RL) orientato all'inferenza converge.
- L'obiettivo principale è quello di raccogliere dati di fine-tuning supervisionato (SFT) da utilizzare nei successivi turni di allenamento.
- A differenza dei dati iniziali di avvio a freddo, che si concentrano solo sull'inferenza, questa fase mira a espandere le capacità del modello per coprire attività di scrittura, giochi di ruolo e altri compiti di uso generale, non solo inferenza.
- Raccolta dati – Dati di inferenza:
- Metodo: Utilizzare i checkpoint ottenuti dalla fase RL orientata all'inferenza per generare traiettorie di inferenza mediante campionamento di rifiuto.
- Espansione del set di dati: A differenza della precedente fase RL, che utilizzava solo dati di ricompensa basati su regole, qui vengono introdotti dati di ricompensa non basati su regole. In alcuni casi, viene utilizzato un modello di ricompensa generativo (DeepSeek-V3) per determinare la risposta.
- Filtraggio dei dati: Per garantire qualità e leggibilità, l'output viene filtrato per rimuovere:
- catene di pensiero contenenti linguaggi misti
- paragrafi lunghi
- blocchi di codice
- Campionamento e selezione: Per ogni prompt, sono state generate più risposte. Solo la risposta "corretta" è stata mantenuta per il set di dati.
- Dimensione del set di dati: Circa 600.000 campioni di addestramento correlati all'inferenza sono stati raccolti in questo modo.
- Raccolta dati – dati non inferenziali:
- Copertura: scrittura, risposta a domande fattuali (QA), autoconsapevolezza e traduzione.
- Il documento menziona l'uso di Il processo DeepSeek-V3 riutilizza parte del set di dati SFT DeepSeek-V3 per gestire queste attività non inferenziali. Informazioni 200.000 campioni indipendenti dall'inferenza sono stati raccolti. (Nota: i dettagli della raccolta di dati non inferenziali sono descritti più dettagliatamente nella Sezione 2.3.4)
- Utilizzo dei dati raccolti:
- I dati di ragionamento e non di ragionamento raccolti (un totale di circa 800.000 campioni – 600.000 campioni di ragionamento + 200.000 campioni non di ragionamento) sono stati quindi utilizzati per perfezionare il modello DeepSeek-V3-Base per due epocheQuesto modello perfezionato è stato poi utilizzato nella fase RL finale descritta nella Sezione 2.3.4.
- Sintesi Questo passaggio utilizza le capacità di inferenza apprese tramite RL per generare un dataset SFT diversificato e di alta qualità. Questo dataset rafforza le capacità di inferenza e amplia anche le capacità generali di il modello per la formazione nella fase finale di allineamento e miglioramento.
- Scopo:
- Apprendimento tramite rinforzo per tutti gli scenari: per allineare ulteriormente le preferenze umane, viene implementata una seconda fase di apprendimento tramite rinforzo per migliorare l'utilità e l'innocuità del modello.
- Dati di inferenza: ad esempio matematica, codice, inferenza logica o metodi supervisionati con base di regole.
- Dati generali: i modelli di ricompensa sono ancora utilizzati per fornire informazioni sulle preferenze per scenari complessi e sottili. Vengono anche stimati modelli addestrati con dati a coppie.
- Utilità: concentrarsi solo sui risultati finali riassuntivi, riducendo l'interferenza con il processo di inferenza.
- Innocuità: supervisionare l'intera risposta per ridurre eventuali rischi.
Distillazione modello (Distillazione):
- Per ottenere un modello di inferenza più efficiente, il documento distilla la capacità di inferenza di DeepSeek-R1 nei modelli open source delle serie Qwen e Llama. Il processo di distillazione utilizza solo la messa a punto fine supervisionata (SFT) e non utilizza la fase di apprendimento tramite rinforzo.
Conclusione
DeepSeek-R1-Zero: Dimostra il potenziale di apprendimento di rinforzo puro nel motivare la capacità di inferenza LLM e può raggiungere prestazioni elevate senza basarsi su dati supervisionati.


- Momento "Aha": La bellezza dell'apprendimento per rinforzo (il momento di illuminazione del modello, in cui dedica più tempo alla riflessione su un problema imparando a rivalutarlo l'approccio iniziale)
- La lunghezza dell'output continua ad aumentare (il tempo di riflessione continua ad aumentare)
- La precisione continua a migliorare (campionamento di 16 risposte per calcolare la precisione)

- DeepSeek-R1: Migliora ulteriormente le prestazioni del modello combinando i dati di avvio a freddo e la messa a punto dell'apprendimento di rinforzo iterativo, raggiungendo un livello paragonabile a OpenAI-01-1217 in vari compiti.

- Distillazione della conoscenza: Utilizzando DeepSeek-R1 come modello di insegnante, sono stati generati 800K campioni di training e sono stati perfezionati diversi modelli piccoli e densi. I risultati mostrano che questo Il metodo di distillazione può migliorare significativamente la capacità di inferenza di piccoli modelli.
Limitazione
- Limitazione 1: la capacità generale di DeepSeek-R1 deve essere migliorata. DeepSeek-R1 è ancora inferiore a DeepSeek-V3 in attività quali chiamate di funzione, dialogo multi-turno, giochi di ruolo complessi e output JSON.
- Limitazione 2: problema di mescolanza linguistica. DeepSeek-R1 potrebbe riscontrare un problema di mescolanza di lingue durante l'elaborazione di query in lingue diverse dal cinese e dall'inglese, ad esempio quando si tratta di ragionare e rispondere in inglese.
- Limitazione 3: Sensibilità immediata. DeepSeek-R1 è sensibile alle parole richieste e la richiesta di poche parole ne ridurrà le prestazioni.
- Limitazione 4: applicazione limitata alle attività di ingegneria del software. A causa del lungo tempo di valutazione, l'apprendimento per rinforzo su larga scala non è stato applicato completamente alle attività di ingegneria del software e DeepSeek-R1 ha registrato miglioramenti limitati rispetto a DeepSeek-V3 nei benchmark di ingegneria del software.