Paper-DeepSeek-R1: Incentivare la capacità di ragionamento nei LLM attraverso l'apprendimento per rinforzo

Indice dei contenuti

Astratto

Questo documento presenta i modelli di ragionamento DeepSeek di prima generazione: DeepSeek-R1-Zero e DeepSeek-R1. DeepSeek-R1-Zero, addestrato attraverso l'apprendimento per rinforzo (RL) su larga scala senza messa a punto supervisionata (SFT), dimostra notevoli capacità di ragionamento. Grazie all'RL, sviluppa naturalmente potenti comportamenti di ragionamento. Tuttavia, deve affrontare problemi come la scarsa leggibilità e la mescolanza del linguaggio. Per risolvere questi problemi e migliorare le prestazioni di ragionamento, è stato sviluppato DeepSeek-R1, che incorpora un addestramento in più fasi e dati di partenza a freddo prima di RL. DeepSeek-R1 raggiunge prestazioni paragonabili a quelle di OpenAI-o1-1217 nei compiti di ragionamento. Per supportare la ricerca, DeepSeek rende disponibili entrambi i modelli e sei modelli densi (1.5B, 7B, 8B, 14B, 32B, 70B) distillati da DeepSeek-R1 e basati su Qwen e Llama.

Contributi chiave

Post-formazione: Apprendimento per rinforzo su larga scala

Applicato con successo l'RL direttamente al modello di base senza SFT
Ha sviluppato DeepSeek-R1-Zero, dimostrando capacità come l'autoverifica e la riflessione.
La prima ricerca aperta che convalida che le capacità di ragionamento possono essere incentivate solo attraverso la RL
Introdotta pipeline per DeepSeek-R1 con due stadi RL e due stadi SFT

Distillazione: Potenziamento dei modelli più piccoli

Dimostrato che gli schemi di ragionamento di modelli più ampi possono essere efficacemente distillati in modelli più piccoli
Open-sourced DeepSeek-R1 e la sua API a beneficio della comunità di ricerca
Messa a punto di diversi modelli densi che mostrano prestazioni di benchmark eccezionali
I modelli distillati superano significativamente i precedenti modelli open-source

Risultati della valutazione

Compiti di ragionamento

DeepSeek-R1 raggiunge 79,8% Pass@1 su AIME 2024, superando OpenAI-o1-1217
97,3% punteggio su MATH-500, prestazioni pari a quelle di OpenAI-o1-1217
Prestazioni di livello esperto in compiti di competizione di codice con 2.029 valutazioni Elo su Codeforces

Compiti di conoscenza

Risultati eccezionali su MMLU (90,8%), MMLU-Pro (84,0%) e GPQA Diamond (71,5%)
Supera gli altri modelli a sorgente chiusa nei compiti educativi
Ottime prestazioni su benchmark fattuali come SimpleQA

Capacità generali

Eccelle nella scrittura creativa, nella risposta alle domande, nell'editing e nella sintesi.
87,6% di percentuale di vittoria su AlpacaEval 2.0 e 92,3% su ArenaHard.
Ottime prestazioni in compiti di comprensione di un contesto lungo

Lavoro futuro

Il team intende concentrarsi su:

Migliorare le capacità generali in aree come la chiamata di funzioni e il gioco di ruolo complesso.
Affrontare i problemi di commistione linguistica
Migliorare l'ingegneria di prompting
Migliorare le prestazioni nei compiti di ingegneria del software

Conclusione

DeepSeek-R1 rappresenta un significativo progresso nelle capacità di ragionamento dell'IA attraverso l'apprendimento per rinforzo. Il successo del modello principale e delle sue versioni semplificate dimostra il potenziale di questo approccio per lo sviluppo di sistemi di intelligenza artificiale più efficienti. Il rilascio open-source di questi modelli contribuirà a ulteriori ricerche e sviluppi nel settore.

DeepSeek_R1 Scaricare

Senza categoria

DeepSeek ce l'ha fatta! OpenAI ammette l'errore del closed source, il vantaggio del vantaggio diventa più piccolo

Dazddeepseeker 2 febbraio 20252 febbraio 2025

Dopo il rilascio del modello o3-mini da parte di OpenAI, il suo CEO Sam Altman, il Chief Research Officer Mark Chen, il Chief Product Officer Kevin Weil, il Vice Presidente di Engineering Srinivas Narayanan, la Responsabile della Ricerca API Michelle Pokrass e il Responsabile della Ricerca Hongyu Ren hanno condotto un Q&A tecnico online su reddit, uno dei più grandi forum al mondo. Gli argomenti principali...

Senza categoria

Aggiornamento DeepSeek-R1-0528: Pensiero più profondo, ragionamento più forte

Dazddeepseeker 29 maggio 202529 maggio 2025

Il modello DeepSeek R1 è stato sottoposto a un aggiornamento minore, la cui versione attuale è DeepSeek-R1-0528. Quando accedete alla pagina web o all'app DeepSeek, attivate la funzione "Deep Thinking" nell'interfaccia di dialogo per provare la versione più recente. I pesi del modello DeepSeek-R1-0528 sono stati caricati su HuggingFace. Negli ultimi quattro mesi, DeepSeek-R1 è stato sottoposto a...

Senza categoria

Artefatti di gestione di modelli linguistici di grandi dimensioni come DeepSeek: Cherry Studio, Chatbox, AnythingLLM, chi è il tuo acceleratore di efficienza?

Dazddeepseeker 11 Febbraio 202511 Febbraio 2025

Molte persone hanno già iniziato a distribuire e utilizzare Deepseek Large Language Models localmente, utilizzando Chatbox come strumento di visualizzazione. Questo articolo continuerà a presentare altri due artefatti di gestione e visualizzazione di AI Large Language Model e confronterà i tre in dettaglio per aiutarti a utilizzare AI Large Language Models in modo più efficiente. Nel 2025,…

Senza categoria

Gemini 2.0 domina le classifiche, mentre DeepSeek V3 piange nel prezzo, ed è nato un nuovo campione conveniente!

Dazddeepseeker 8 Febbraio 20258 Febbraio 2025

La famiglia Google Gemini 2.0 è finalmente completa! Domina le classifiche non appena viene rilasciata. Tra l'inseguimento e i blocchi di Deepseek, Qwen e o3, Google ha rilasciato tre modelli in una volta sola questa mattina presto: Gemini 2.0 Pro, Gemini 2.0 Flash e Gemini 2.0 Flash-Lite. Nella classifica dei modelli grandi LMSYS, Gemini…

Senza categoria

Google ha rilasciato tre nuovi modelli contemporaneamente: Gemini-2.0-Pro è gratuito, ha un punteggio eccezionale e si classifica al primo posto, ed è adatto per la codifica e l'elaborazione di prompt complessi!

Dazddeepseeker 8 Febbraio 20258 Febbraio 2025

La storia di Gemini 2.0 sta accelerando. La versione Flash Thinking Experimental di dicembre ha portato agli sviluppatori un modello funzionante con bassa latenza e alte prestazioni. All'inizio di quest'anno, Flash Thinking Experimental 2.0 è stato aggiornato in Google AI Studio per migliorare ulteriormente le prestazioni combinando la velocità di Flash con capacità di inferenza migliorate. La scorsa settimana,…

Senza categoria

DeepSeek TOP17 Le migliori alternative: analisi completa (2025)

Dadeepseeker 6 Febbraio 20256 Febbraio 2025

Introduzione Nel panorama in rapida evoluzione dell'intelligenza artificiale, DeepSeek è emerso come un potente modello linguistico. Questa analisi completa esplora le 17 migliori alternative a DeepSeek, esaminandone le caratteristiche, le capacità e i casi d'uso unici. La nostra ricerca si concentra sia sulle piattaforme internazionali che su quelle cinesi che offrono l'integrazione DeepSeek o capacità simili. Analisi delle migliori alternative 1….

Astratto

Contributi chiave

Post-formazione: Apprendimento per rinforzo su larga scala

Distillazione: Potenziamento dei modelli più piccoli

Risultati della valutazione

Compiti di ragionamento

Compiti di conoscenza

Capacità generali

Lavoro futuro

Conclusione

Messaggi simili

Lascia un commento Annulla risposta