Astăzi vom împărtăși DeepSeek R1, Titlu: DeepSeek-R1: Stimularea capacității de raționament în LLMs prin învățare prin consolidare: Stimularea capacității de raționament a LLM prin învățare prin consolidare.
Această lucrare prezintă prima generație de modele de raționament a DeepSeek, DeepSeek-R1-Zero și DeepSeek-R1. Modelul DeepSeek-R1-Zero a fost antrenat Învățare prin consolidare la scară largă (RL) fără reglare fină supravegheată (SFT) ca pas inițial, demonstrând potențialul RL și capacitățile superioare de raționament aduce. Prin învățare prin întărire, DeepSeek-R1-Zero a apărut în mod natural cu multe comportamente de raționament puternice și interesante. Pentru a optimiza și mai mult unele dintre problemele cu R1-Zero (confuzii lingvistice, capacitate îmbunătățită de generalizare), au lansat DeepSeek-R1, care combină antrenamentul în mai multe etape și reglarea fină a datelor la pornire la rece înainte de învățare de întărire. DeepSeek-R1 a atins performanțe comparabile pe sarcina de raționament cu OpenAI-01-1217. Pentru a sprijini comunitatea de cercetare, au DeepSeek-R1-Zero, DeepSeek-R1 și șase modele dense (1.5B, 7B, 8B, 14B, 32B, 70B) distilate din DeepSeek-R1, care se bazează pe Qwen și Llama.
Caracteristicile metodei sunt rezumate după cum urmează:
- Învățarea prin consolidare se aplică direct modelului de bază, fără a se baza pe reglarea fină supravegheată (SFT) ca pas inițial.
- Este introdus procesul de dezvoltare DeepSeek-R1, care combină două faze de învățare de întărire și două faze de reglare fină supravegheate pentru a pune bazele capacităților de raționament și neraționare ale modelului.
- Performanța modelelor mici la sarcinile de raționament este îmbunătățită prin transferul tiparelor de raționament ale modelelor mari la modele mici prin tehnici de distilare.
Prezentare generală
- Titlu: DeepSeek-R1: Stimularea capacității de raționament în LLM prin învățare prin consolidare
- Autori: DeepSeek-AI
- Github: deepseek R1
Motivația
- Modelele lingvistice mari (LLM) actuale au făcut progrese semnificative în sarcinile de inferență, dar se confruntă în continuare cu provocări.
- Potențialul purului Învățarea prin consolidare (RL) în îmbunătățirea capacității de raționament a LLM nu a fost pe deplin explorată, mai ales fără a te baza pe date supravegheate.
- Modele antrenate prin RL, cum ar fi DeepSeek-R1-Zero, au probleme cu lizibilitatea și amestecarea limbilor (de exemplu, vorbind chineză și engleză mixt) și au nevoie de îmbunătățiri suplimentare pentru a îmbunătăți ușurința de utilizare.
Metode

DeepSeek-R1-Zero: Utilizează DeepSeek-V3-Base ca model de bază și GRPO (Group Relative Policy Optimization) ca învățare de consolidare cadru, fără date supravegheate pentru a îmbunătăți performanța modelului în inferență.
DeepSeek-R1:
- Pornire la rece: Colectează o cantitate mică de date lungi de înaltă calitate CoT (Chain-of-Thought) și ajustează fin DeepSeek-V3-Model de bază ca actor iniţial pentru învăţarea prin întărire.
- Învățare prin întărire orientată spre raționament: Aceeași procesul de antrenament de învățare prin întărire, deoarece se aplică DeepSeek-R1-Zero, dar cu accent pe îmbunătățirea abilităților de raționament ale modelului în domenii precum codificare, matematică, știință și raționament logic. Recompensele de consistență lingvistică sunt introduse pentru a atenua problema amestecării lingvistice care apare în CoT.
- Eșantionarea de respingere și reglarea fină supravegheată: Utilizează punctul de control convergent al învățării prin întărire pentru colectați date de reglare fină supravegheată (SFT). pentru pregătirea ulterioară.
- Învățare prin consolidare pentru toate scenariile: implementează o fază de învățare prin consolidare de nivel al doilea, care are ca scop îmbunătățirea utilitatea și inofensiunea modelului optimizând în același timp capacitatea de raționament.
- Distilarea cunoștințelor: Ajustează modelele open source Qwen și Llama direct folosind mostrele de 800.000 selectate de DeepSeek-R1.
Metode și proceduri detaliate:

DeepSeek-R1-Zero: Învățare prin întărire pentru modelele de bază
- Algoritm de învățare prin întărire: Utilizează algoritmul Group Relative Policy Optimization (GRPO), care nu necesită a critic model, estimează valoarea de bază în funcție de scorurile grupului și reduce costurile de formare.
- Modelarea recompensei: Utilizează a sistem de recompense bazat pe reguli, inclusiv

- recompensa de precizie: Evaluează dacă răspunsul este corect, cum ar fi corectitudinea rezultatului final al răspuns la problema de matematică, feedback de la compilator pentru probleme de cod.
- Format recompensa: Încurajează modelul să plasează procesul de gândire între
și
etichete.
Șablon de antrenament: Un șablon care conține și
etichetele sunt concepute pentru ghidați modelul pentru a scoate mai întâi procesul de gândire și apoi răspunsul final.

- Proces de auto-evoluție: DeepSeek-R1-Zero demonstrat caracteristici auto-evolutive în timpul antrenamentului și a fost capabil să învețe în mod autonom strategii de raționament mai complexe, cum ar fi reflecția și explorarea mai multor căi de rezolvare a problemelor.

DeepSeek-R1: Învățare prin întărire combinată cu pornire la rece

- Pornire la rece: Pentru a rezolva DeepSeek-R1-Zero problema de lizibilitate, DeepSeek-R1 colectează mai întâi o cantitate mică de date CoT de înaltă calitate și reglează fin modelul DeepSeek-V3-Base la servi ca actor inițial pentru învățarea prin întărire. Datele de pornire la rece conține etichete rezumate și răspunsuri neprietenoase sunt filtrate.
- Metodă: 1) Selectați date Long COT de înaltă calitate. 2) Adăugați și etichetați.
- Avantaje: 1) Lizibilitate optimizată (rezolvați problema multilingvă a R1-Zero sau problema formatului de reducere). 2) Datele preferate de oameni selectate cu atenție pot continua să îmbunătățească performanța pe R1-Zero.
- Întrebare: De ce să rezolvăm problema lizibilității? Nu este posibil să faci mai bine fără a o rezolva (de exemplu, reducerea lungimii ieșirii și deducerea mai eficientă)?
- RL orientat spre raționament: Pe baza modelului de pornire la rece, un proces de învățare prin întărire similar cu Se aplică DeepSeek-R1-Zero, concentrându-se pe îmbunătățirea abilității modelului în sarcini precum codificare, matematică, raționament științific și logic. Pentru a rezolva problema limbilor mixte (raționament în mai multe limbi), recompense pentru consistența limbii sunt introduse.
- Întrebare: Cum sunt instruite sarcinile de raționament științific și logic și seturile de date?
- Eșantionarea de respingere și SFT: După ce converge învățarea de întărire ghidată de inferență, punctul de control obținut este utilizat pentru eșantionare de respingere pentru a genera noi date SFT, care sunt combinate cu datele de la DeepSeek-V3 pentru a îmbunătăți capacitățile modelului în scriere, joc de rol și sarcini generale.
- Scop:
- Această fază este inițiată după procesul de învățare prin întărire orientată pe inferență (RL) converge.
- Obiectivul principal este de a colectează date de reglare fină supravegheată (SFT). pentru utilizare în rundele de antrenament ulterioare.
- Spre deosebire de datele inițiale de pornire la rece, care se concentrează doar pe inferență, această fază are ca scop extinde capacitățile modelului pentru a acoperi scrierea, jocurile de rol și alte sarcini cu scop general, nu doar inferența.
- Colectarea datelor – date de inferență:
- Metodă: Utilizați punctele de control obținute din faza RL orientată pe inferență pentru a genera traiectorii de inferență prin eșantionare de respingere.
- Extinderea setului de date: Spre deosebire de faza anterioară RL, care folosea doar date de recompense bazate pe reguli, aici sunt introduse date despre recompense care nu se bazează pe reguli. În unele cazuri, un model de recompensă generativă (DeepSeek-V3) este utilizat pentru a determina răspunsul.
- Filtrarea datelor: Pentru a asigura calitatea și lizibilitatea, rezultatul este filtrat pentru a elimina:
- lanțuri de gândire care conțin limbi mixte
- paragrafe lungi
- blocuri de cod
- Eșantionarea și selecția: Pentru fiecare prompt, au fost generate răspunsuri multiple. Doar răspunsul „corect” a fost reținut pentru setul de date.
- Dimensiunea setului de date: Aproximativ 600.000 de mostre de antrenament legate de inferență au fost colectate în acest fel.
- Colectarea datelor – date non-inferente:
- Acoperire: scriere, răspunsuri la întrebări (QA), conștientizare de sine și traducere.
- Lucrarea menționează utilizarea DeepSeek-V3 procesează și reutiliza o parte din setul de date SFT DeepSeek-V3 pentru a gestiona aceste sarcini de non-inferență. Despre 200.000 de mostre independente de inferență au fost colectate. (Notă: detaliile culegerii de date non-inferențe sunt descrise în continuare în Secțiunea 2.3.4)
- Utilizarea datelor colectate:
- Datele de raționament și neraționament colectate (un total de aproximativ 800.000 de eșantioane – 600.000 de eșantioane de raționament + 200.000 de eșantioane neraționate) au fost apoi utilizate pentru a reglați fin modelul DeepSeek-V3-Base pentru două epoci. Acest model reglat fin a fost apoi utilizat în faza finală RL descrisă în Secțiunea 2.3.4.
- Rezumat Acest pas folosește capabilitățile de inferență învățat prin RL pentru a genera un set de date SFT divers și de înaltă calitate. Acest set de date întărește capacitățile de inferență și, de asemenea, extinde capacitățile generale ale modelul de instruire în faza finală de aliniere și îmbunătățire.
- Scop:
- Învățare prin consolidare pentru toate scenariile: Pentru a alinia în continuare preferințele umane, este implementată o a doua fază de învățare prin consolidare pentru a îmbunătăți utilitatea și inofensiunea modelului.
- Date de inferență: de exemplu, matematică, cod, inferență logică sau supravegheate cu metode bazate pe reguli.
- Date generale: modelele de recompensă sunt încă folosite pentru a oferi informații despre preferințe pentru scenarii complexe și subtile. Sunt de asemenea estimate modelele antrenate cu date perechi.
- Utilitate: concentrați-vă doar pe rezultatele rezumate finale, reducând interferența cu procesul de inferență.
- Inofensivă: supravegheați întregul răspuns pentru a reduce orice risc.
Distilare model (Distilare):
- Pentru a obține un model de inferență mic mai eficient, lucrarea distilează capacitatea de inferență a lui DeepSeek-R1 în modelele open source ale seriei Qwen și Llama. Procesul de distilare folosește numai reglajul fin supravegheat (SFT) și nu folosește etapa de învățare prin întărire.
Concluzie
DeepSeek-R1-Zero: Demonstrează potențialul Învățare prin consolidare pură în motivarea capacității de inferență LLM și poate obține performanțe puternice fără a se baza pe date supravegheate.


- Aha-moment: Frumusețea învățării prin întărire (momentul de iluminare al modelului, unde acesta alocă mai mult timp de gândire pentru o problemă învățând să reevalueze abordarea inițială)
- Lungimea de ieșire continuă să crească (timpul de gândire continuă să crească)
- Precizia continuă să se îmbunătățească (eșantionarea a 16 răspunsuri pentru a calcula acuratețea)

- DeepSeek-R1: îmbunătățește și mai mult performanța modelului prin combinarea datelor de pornire la rece și reglarea fină a învățării de întărire iterativă, atingerea unui nivel comparabil cu OpenAI-01-1217 pe diverse sarcini.

- Distilarea cunoștințelor: Folosind DeepSeek-R1 ca model de profesor, au fost generate 800.000 mostre de antrenament și au fost ajustate mai multe modele mici și dense. Rezultatele arată că aceasta metoda de distilare poate îmbunătăți semnificativ capacitatea de deducere a modele mici.
Prescripţie
- Limitarea 1: capacitatea generală a DeepSeek-R1 trebuie îmbunătățită. DeepSeek-R1 este în continuare inferior lui DeepSeek-V3 în sarcini precum apelurile de funcții, dialogul în mai multe rânduri, jocurile complexe de rol și ieșirea JSON.
- Limitarea 2: Problemă de amestecare a limbii. DeepSeek-R1 poate întâmpina o problemă de amestecare a limbilor atunci când procesează interogări non-chineze și non-engleze, de exemplu, raționarea și răspunsul în limba engleză.
- Limitarea 3: Sensibilitate promptă. DeepSeek-R1 este sensibil la cuvintele prompte, iar solicitarea cu câteva lovituri îi va reduce performanța.
- Limitarea 4: Aplicație limitată la sarcinile de inginerie software. Datorită timpului lung de evaluare, învățarea prin consolidare la scară largă nu a fost aplicată pe deplin sarcinilor de inginerie software, iar DeepSeek-R1 are îmbunătățiri limitate față de DeepSeek-V3 în benchmark-urile de inginerie software.