Astratto

Questo documento presenta i modelli di ragionamento DeepSeek di prima generazione: DeepSeek-R1-Zero e DeepSeek-R1. DeepSeek-R1-Zero, addestrato attraverso l'apprendimento per rinforzo (RL) su larga scala senza messa a punto supervisionata (SFT), dimostra notevoli capacità di ragionamento. Grazie all'RL, sviluppa naturalmente potenti comportamenti di ragionamento. Tuttavia, deve affrontare problemi come la scarsa leggibilità e la mescolanza del linguaggio. Per risolvere questi problemi e migliorare le prestazioni di ragionamento, è stato sviluppato DeepSeek-R1, che incorpora un addestramento in più fasi e dati di partenza a freddo prima di RL. DeepSeek-R1 raggiunge prestazioni paragonabili a quelle di OpenAI-o1-1217 nei compiti di ragionamento. Per supportare la ricerca, DeepSeek rende disponibili entrambi i modelli e sei modelli densi (1.5B, 7B, 8B, 14B, 32B, 70B) distillati da DeepSeek-R1 e basati su Qwen e Llama.

Contributi chiave

Post-formazione: Apprendimento per rinforzo su larga scala

  • Applicato con successo l'RL direttamente al modello di base senza SFT
  • Ha sviluppato DeepSeek-R1-Zero, dimostrando capacità come l'autoverifica e la riflessione.
  • La prima ricerca aperta che convalida che le capacità di ragionamento possono essere incentivate solo attraverso la RL
  • Introdotta pipeline per DeepSeek-R1 con due stadi RL e due stadi SFT

Distillazione: Potenziamento dei modelli più piccoli

  • Dimostrato che gli schemi di ragionamento di modelli più ampi possono essere efficacemente distillati in modelli più piccoli
  • Open-sourced DeepSeek-R1 e la sua API a beneficio della comunità di ricerca
  • Messa a punto di diversi modelli densi che mostrano prestazioni di benchmark eccezionali
  • I modelli distillati superano significativamente i precedenti modelli open-source

Risultati della valutazione

Compiti di ragionamento

  • DeepSeek-R1 raggiunge 79,8% Pass@1 su AIME 2024, superando OpenAI-o1-1217
  • 97,3% punteggio su MATH-500, prestazioni pari a quelle di OpenAI-o1-1217
  • Prestazioni di livello esperto in compiti di competizione di codice con 2.029 valutazioni Elo su Codeforces

Compiti di conoscenza

  • Risultati eccezionali su MMLU (90,8%), MMLU-Pro (84,0%) e GPQA Diamond (71,5%)
  • Supera gli altri modelli a sorgente chiusa nei compiti educativi
  • Ottime prestazioni su benchmark fattuali come SimpleQA

Capacità generali

  • Eccelle nella scrittura creativa, nella risposta alle domande, nell'editing e nella sintesi.
  • 87,6% di percentuale di vittoria su AlpacaEval 2.0 e 92,3% su ArenaHard.
  • Ottime prestazioni in compiti di comprensione di un contesto lungo

Lavoro futuro

Il team intende concentrarsi su:

  1. Migliorare le capacità generali in aree come la chiamata di funzioni e il gioco di ruolo complesso.
  2. Affrontare i problemi di commistione linguistica
  3. Migliorare l'ingegneria di prompting
  4. Migliorare le prestazioni nei compiti di ingegneria del software

Conclusione

DeepSeek-R1 rappresenta un significativo progresso nelle capacità di ragionamento dell'IA attraverso l'apprendimento per rinforzo. Il successo del modello principale e delle sue versioni semplificate dimostra il potenziale di questo approccio per lo sviluppo di sistemi di intelligenza artificiale più efficienti. Il rilascio open-source di questi modelli contribuirà a ulteriori ricerche e sviluppi nel settore.

Messaggi simili

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *