Astratto
Questo documento presenta i modelli di ragionamento DeepSeek di prima generazione: DeepSeek-R1-Zero e DeepSeek-R1. DeepSeek-R1-Zero, addestrato attraverso l'apprendimento per rinforzo (RL) su larga scala senza messa a punto supervisionata (SFT), dimostra notevoli capacità di ragionamento. Grazie all'RL, sviluppa naturalmente potenti comportamenti di ragionamento. Tuttavia, deve affrontare problemi come la scarsa leggibilità e la mescolanza del linguaggio. Per risolvere questi problemi e migliorare le prestazioni di ragionamento, è stato sviluppato DeepSeek-R1, che incorpora un addestramento in più fasi e dati di partenza a freddo prima di RL. DeepSeek-R1 raggiunge prestazioni paragonabili a quelle di OpenAI-o1-1217 nei compiti di ragionamento. Per supportare la ricerca, DeepSeek rende disponibili entrambi i modelli e sei modelli densi (1.5B, 7B, 8B, 14B, 32B, 70B) distillati da DeepSeek-R1 e basati su Qwen e Llama.
Contributi chiave
Post-formazione: Apprendimento per rinforzo su larga scala
- Applicato con successo l'RL direttamente al modello di base senza SFT
- Ha sviluppato DeepSeek-R1-Zero, dimostrando capacità come l'autoverifica e la riflessione.
- La prima ricerca aperta che convalida che le capacità di ragionamento possono essere incentivate solo attraverso la RL
- Introdotta pipeline per DeepSeek-R1 con due stadi RL e due stadi SFT
Distillazione: Potenziamento dei modelli più piccoli
- Dimostrato che gli schemi di ragionamento di modelli più ampi possono essere efficacemente distillati in modelli più piccoli
- Open-sourced DeepSeek-R1 e la sua API a beneficio della comunità di ricerca
- Messa a punto di diversi modelli densi che mostrano prestazioni di benchmark eccezionali
- I modelli distillati superano significativamente i precedenti modelli open-source
Risultati della valutazione
Compiti di ragionamento
- DeepSeek-R1 raggiunge 79,8% Pass@1 su AIME 2024, superando OpenAI-o1-1217
- 97,3% punteggio su MATH-500, prestazioni pari a quelle di OpenAI-o1-1217
- Prestazioni di livello esperto in compiti di competizione di codice con 2.029 valutazioni Elo su Codeforces
Compiti di conoscenza
- Risultati eccezionali su MMLU (90,8%), MMLU-Pro (84,0%) e GPQA Diamond (71,5%)
- Supera gli altri modelli a sorgente chiusa nei compiti educativi
- Ottime prestazioni su benchmark fattuali come SimpleQA
Capacità generali
- Eccelle nella scrittura creativa, nella risposta alle domande, nell'editing e nella sintesi.
- 87,6% di percentuale di vittoria su AlpacaEval 2.0 e 92,3% su ArenaHard.
- Ottime prestazioni in compiti di comprensione di un contesto lungo
Lavoro futuro
Il team intende concentrarsi su:
- Migliorare le capacità generali in aree come la chiamata di funzioni e il gioco di ruolo complesso.
- Affrontare i problemi di commistione linguistica
- Migliorare l'ingegneria di prompting
- Migliorare le prestazioni nei compiti di ingegneria del software
Conclusione
DeepSeek-R1 rappresenta un significativo progresso nelle capacità di ragionamento dell'IA attraverso l'apprendimento per rinforzo. Il successo del modello principale e delle sue versioni semplificate dimostra il potenziale di questo approccio per lo sviluppo di sistemi di intelligenza artificiale più efficienti. Il rilascio open-source di questi modelli contribuirà a ulteriori ricerche e sviluppi nel settore.