Document-DeepSeek-R1: Stimularea capacității de raționament în LLM prin învățarea prin consolidare

Tabla de conținut

Rezumat

Această lucrare prezintă prima generație de modele de raționament DeepSeek: DeepSeek-R1-Zero și DeepSeek-R1. DeepSeek-R1-Zero, antrenat prin învățarea prin consolidare (RL) pe scară largă, fără reglaj fin supravegheat (SFT), demonstrează capacități remarcabile de raționament. Prin RL, acesta dezvoltă în mod natural comportamente de raționament puternice. Cu toate acestea, se confruntă cu provocări precum lizibilitatea redusă și amestecul de limbaje. Pentru a rezolva aceste probleme și pentru a îmbunătăți performanțele de raționament, a fost dezvoltat DeepSeek-R1, care încorporează formarea în mai multe etape și date de pornire la rece înainte de RL. DeepSeek-R1 atinge performanțe comparabile cu OpenAI-o1-1217 în sarcinile de raționament. Pentru a sprijini cercetarea, DeepSeek deschide ambele modele și șase modele dense (1.5B, 7B, 8B, 14B, 32B, 70B) distilate din DeepSeek-R1 bazate pe Qwen și Llama.

Contribuții cheie

Post-antrenament: Învățarea prin întărire pe scară largă

Aplicarea cu succes a RL direct la modelul de bază fără SFT
A dezvoltat DeepSeek-R1-Zero, demonstrând capacități precum autoverificarea și reflecția
Prima cercetare deschisă care validează faptul că capacitățile de raționament pot fi stimulate doar prin intermediul RL
Introdus conducta pentru DeepSeek-R1 cu două etape RL și două etape SFT

Distilare: Consolidarea modelelor mai mici

A demonstrat că modelele de raționament din modele mai mari pot fi distilate eficient în modele mai mici
Open-sourced DeepSeek-R1 și API-ul său în beneficiul comunității de cercetare
Ajustarea fină a mai multor modele dense cu performanțe excepționale în benchmark-uri
Modelele distilate depășesc semnificativ performanțele modelelor open-source anterioare

Rezultatele evaluării

Sarcini de raționament

DeepSeek-R1 atinge 79,8% Pass@1 pe AIME 2024, depășind OpenAI-o1-1217
97,3% scor la MATH-500, performanțe egale cu OpenAI-o1-1217
Performanță la nivel de expert în sarcini de competiție de cod cu un rating Elo de 2.029 pe Codeforces

Sarcini de cunoaștere

Rezultate remarcabile la MMLU (90.8%), MMLU-Pro (84.0%) și GPQA Diamond (71.5%)
Surclasează alte modele cu sursă închisă în sarcinile educaționale
Performanță solidă în ceea ce privește reperele factuale precum SimpleQA

Capacități generale

excelează în scriere creativă, răspuns la întrebări, editare și rezumare
87.6% win-rate pe AlpacaEval 2.0 și 92.3% pe ArenaHard
Performanță puternică în sarcinile de înțelegere a contextului pe termen lung

Lucrări viitoare

Echipa intenționează să se concentreze pe:

Îmbunătățirea capacităților generale în domenii precum apelarea funcțiilor și jocul de rol complex
Abordarea problemelor legate de amestecul de limbi
Îmbunătățirea ingineriei prompting
Îmbunătățirea performanței în sarcinile de inginerie software

Concluzie

DeepSeek-R1 reprezintă un progres semnificativ în capacitățile de raționament AI prin învățarea prin consolidare. Succesul atât al modelului principal, cât și al versiunilor sale distilate demonstrează potențialul acestei abordări pentru dezvoltarea unor sisteme AI mai performante. Publicarea open-source a acestor modele va contribui la continuarea cercetării și dezvoltării în domeniu.

DeepSeek_R1 Descărcare

Fără categorie

DeepSeek TOP17 Cele mai bune alternative: analiză cuprinzătoare (2025)

Prindeepseeker 6 februarie 20256 februarie 2025

Introducere În peisajul în evoluție rapidă al inteligenței artificiale, DeepSeek a apărut ca un model de limbaj puternic. Această analiză cuprinzătoare explorează primele 17 alternative la DeepSeek, examinând caracteristicile, capabilitățile și cazurile de utilizare ale acestora. Cercetarea noastră se concentrează atât pe platformele internaționale, cât și pe cele chineze care oferă integrare DeepSeek sau capabilități similare. Analiza alternativelor de top 1….

Fără categorie

Le Chat este în fruntea topurilor, cu o investiție de o sută de miliarde de dolari. După SUA și China, este a treia putere AI?

Prinzddeepseeker 11 februarie 202511 februarie 2025

Pe 9 februarie, președintele francez Emmanuel Macron a anunțat că Franța va investi 109 miliarde de euro (113 miliarde de dolari SUA) în domeniul AI în următorii câțiva ani. Această investiție va fi folosită pentru a construi un parc AI în Franța, pentru a îmbunătăți infrastructura și pentru a investi în start-up-uri locale de AI. Între timp, Mistral, un startup francez,...

Fără categorie

Gemini 2.0 domină topurile, în timp ce DeepSeek V3 plânge în prețul său și ia naștere un nou campion rentabil!

Prinzddeepseeker 8 februarie 20258 februarie 2025

Familia Google Gemini 2.0 este în sfârșit completă! Domină topurile de îndată ce este lansat. În mijlocul urmăririi și blocajelor Deepseek, Qwen și o3, Google a lansat trei modele dintr-o singură mișcare în această dimineață devreme: Gemini 2.0 Pro, Gemini 2.0 Flash și Gemini 2.0 Flash-Lite. În clasamentul mare model LMSYS, Gemenii...

Fără categorie

Ce poate realiza Deepseek? Nici măcar OpenAI nu o poate face?

Prinzddeepseeker 10 februarie 202510 februarie 2025

Valoarea adevărată a DeepSeek este subestimată! DeepSeek-R1 a adus, fără îndoială, un nou val de entuziasm pe piață. Nu numai că așa-numitele ținte relevante ale beneficiarilor cresc brusc, dar unii oameni chiar au dezvoltat cursuri și software legate de DeepSeek, în încercarea de a câștiga bani din acesta. Credem că, deși aceste fenomene au o...

Fără categorie

Dialog a16z cu CEO în vârstă de 27 de ani: Agentul AI are un efect de pârghie uriaș, iar prețurile pe termen lung vor fi legate de costurile forței de muncă

Prinzddeepseeker 8 februarie 20258 februarie 2025

Repere AI Agent remodelează experiența clientului Jesse Zhang: Cum este construit de fapt un agent? Părerea noastră este că, în timp, va deveni din ce în ce mai mult ca un agent bazat pe limbaj natural, deoarece așa sunt antrenate modelele de limbaj mari (LLM). Pe termen lung, dacă aveți un agent super inteligent care...

Fără categorie

Ce este FlashMLA? Un ghid cuprinzător pentru impactul său asupra nucleelor de decodare AI

Prindeepseeker 24 februarie 202524 februarie 2025

FlashMLA a câștigat rapid atenția în lumea inteligenței artificiale, în special în domeniul modelelor de limbaj mari (LLM). Acest instrument inovator, dezvoltat de DeepSeek, servește ca un nucleu de decodare optimizat conceput pentru GPU-uri Hopper - cipuri de înaltă performanță utilizate în mod obișnuit în calculele AI. FlashMLA se concentrează pe procesarea eficientă a secvențelor cu lungime variabilă, făcându-l deosebit de potrivit...

Rezumat

Contribuții cheie

Post-antrenament: Învățarea prin întărire pe scară largă

Distilare: Consolidarea modelelor mai mici

Rezultatele evaluării

Sarcini de raționament

Sarcini de cunoaștere

Capacități generale

Lucrări viitoare

Concluzie

Posturi similare

Lasă un răspuns Anulează răspunsul