Vandag sal ons deel DeepSeek R1, Titel: DeepSeek-R1: Aansporing van redenasievermoë in LLM's via versterkingsleer: Aansporing van die redenasievermoë van LLM via versterkingsleer.

Hierdie artikel stel DeepSeek se eerste generasie redenasiemodelle bekend, DeepSeek-R1-Nul en DeepSeek-R1. Die DeepSeek-R1-Zero-model is opgelei grootskaalse versterkingsleer (RL) sonder toesig fyn-instelling (SFT) as 'n aanvanklike stap, wat die potensiaal van RL en die voortreflike redenasievermoëns demonstreer dit bring. Deur versterkende leer, DeepSeek-R1-Zero het natuurlik na vore gekom met baie kragtige en interessante redeneringsgedrag. Om sommige van die probleme met R1-Zero (taalkundige verwarring, verbeterde veralgemeningsvermoë) verder te optimaliseer, het hulle vrygestel DeepSeek-R1, wat multi-stadium opleiding en koue-begin data verfyn kombineer voor versterking leer. DeepSeek-R1 het vergelykbare prestasie behaal oor die redenasietaak met OpenAI-01-1217. Om die navorsingsgemeenskap te ondersteun, het hulle oopbron DeepSeek-R1-Zero, DeepSeek-R1, en ses digte modelle (1.5B, 7B, 8B, 14B, 32B, 70B) gedistilleer vanaf DeepSeek-R1, wat gebaseer is op Qwen en Llama.

Die kenmerke van die metode word soos volg opgesom:

  1. Versterkingsleer word direk op die basismodel toegepas, sonder om staat te maak op toesig fyn-instelling (SFT) as 'n aanvanklike stap.
  2. Die DeepSeek-R1-ontwikkelingsproses word bekendgestel, wat kombineer twee versterkingsleerfases en twee fyninstellingsfases onder toesig om die grondslag te lê vir die model se redenasie- en nie-redeneringsvermoëns.
  3. Die prestasie van klein modelle op redeneringstake word verbeter deur die redenasiepatrone van groot modelle na klein modelle oor te dra d.m.v. distillasie tegnieke.

Oorsig

Motivering

  • Huidige groottaalmodelle (LLM'e) het aansienlike vordering gemaak in afleidingstake, maar staar steeds uitdagings in die gesig.
  • Die potensiaal van suiwer versterkingsleer (RL) in die verbetering van die redenasievermoë van LLM's is nie volledig ondersoek nie, veral sonder om op data onder toesig staat te maak.
  • Modelle opgelei deur RL, soos DeepSeek-R1-Zero, het probleme met leesbaarheid en taalvermenging (bv. praat Chinees en Engels gemeng), en benodig verdere verbetering om gebruikersvriendelikheid te verbeter.

Metodes

DeepSeek-R1-Nul: Gebruik DeepSeek-V3-Base as die basismodel, en GRPO (Group Relative Policy Optimization) as die versterkende leer raamwerk, sonder data onder toesig om die model se prestasie in afleiding te verbeter.

DeepSeek-R1:

  • Koue begin: Versamel 'n klein hoeveelheid hoë kwaliteit lang CoT (Chain-of-Thought) data en verfyn die DeepSeek-V3-basismodel as die aanvanklike akteur vir versterkingsleer.
  • Redenering-georiënteerde versterkingsleer: Dieselfde versterkingsleeropleidingsproses soos DeepSeek-R1-Zero toegepas word, maar met 'n fokus op die verbetering van die model se redenasievermoë op gebiede soos kodering, wiskunde, wetenskap en logiese redenasie. Linguistiese konsekwentheidsbelonings word ingestel om die probleem van linguistiese vermenging wat in CoT voorkom, te versag.
  • Verwerpingsteekproefneming en fyninstelling onder toesig: Gebruik die gekonvergeerde kontrolepunt van versterkingsleer om versamel Toesig fyn-instelling (SFT) data vir daaropvolgende opleiding.
  • Versterkingsleer vir alle scenario's: Implementeer 'n tweedevlak-versterkingsleerfase, wat daarop gemik is om die hulpvaardigheid en onskadelikheid van die model terwyl die redenasievermoë daarvan geoptimaliseer word.
  • Kennis distillasie: Verfyn die oopbronmodelle Qwen en Llama direk met behulp van die 800 000 monsters saamgestel deur DeepSeek-R1.

Gedetailleerde metodes en prosedures:

DeepSeek-R1-Zero: Versterkingsleer vir basismodelle

  • Versterkingsleeralgoritme: Gebruik die Group Relative Policy Optimization (GRPO) algoritme, wat vereis nie a kritikus model, skat die basislyn volgens groeptellings, en verminder opleidingskoste.
  • Beloningsmodellering: Gebruik a reël-gebaseerde beloningstelsel, insluitend
  • akkuraatheid beloning: Evalueer of die antwoord korrek is, soos die korrektheid van die finale resultaat van die wiskunde probleem antwoord, die terugvoer van die samesteller vir kode probleme.
  • Formaat beloning: Moedig die model aan om plaas die denkproses tussen en etikette.

Opleidingsjabloon: 'n Sjabloon wat bevat en etikette is ontwerp om lei die model om eers die denkproses uit te voer, en dan die finale antwoord.

  • Self-evolusionêre proses: DeepSeek-R1-Zero gedemonstreer self-evolusionêre kenmerke tydens opleiding, en was in staat om outonoom meer komplekse redenasiestrategieë aan te leer, soos refleksie en verkenning van veelvuldige probleemoplossingspaaie.

DeepSeek-R1: Versterkingsleer gekombineer met koue begin

  • Koue begin: Om DeepSeek-R1-Zero's op te los leesbaarheidsprobleem, DeepSeek-R1 versamel eers 'n klein hoeveelheid van hoë kwaliteit CoT data en verfyn die DeepSeek-V3-Base-model na dien as die aanvanklike akteur vir versterkingsleer. Die koue begin data bevat opsommingsetikette en onvriendelike antwoorde word uitgefiltreer.
    • Metode: 1) Kies 'n hoë-gehalte Long COT data. 2) Voeg by en etikette.
    • Voordele: 1) Geoptimaliseerde leesbaarheid (los die veeltalige probleem van R1-Zero of die afmerkformaatprobleem op). 2) Noukeurig geselekteerde data wat deur mense verkies word, kan voortgaan om prestasie op R1-Zero te verbeter.
    • Vraag: Waarom die leesbaarheidsprobleem oplos? Is dit nie moontlik om beter te doen sonder om dit op te los nie (bv. om die lengte van die uitset te verminder en meer doeltreffend af te lei)?
  • Redenering-georiënteerde RL: Gebaseer op die koue-begin model, 'n versterking leerproses soortgelyk aan DeepSeek-R1-Zero word toegepas, met die fokus op die verbetering van die model se vermoë in take soos kodering, wiskunde, wetenskaplike en logiese redenasie. Om die probleem van gemengde tale op te los (veeltalige redenasie), taalkonsekwentheid beloon bekendgestel word.
    • Vraag: Hoe word wetenskaplike en logiese redenasietake en datastelle opgelei?
  • Verwerpingsteekproefneming en SFT: Nadat die afleidingsgeleide versterkingsleer konvergeer, word die verkrygde kontrolepunt gebruik vir verwerpingsteekproefneming om nuwe SFT-data te genereer, wat gekombineer word met die data van DeepSeek-V3 om die model se vermoëns in skryf, rolspel en algemene take te verbeter.
    • Doel:
      • Hierdie fase word begin na die inferensie-georiënteerde versterkingsleer (RL) proses konvergeer.
      • Die hoofdoelwit is om versamel toesig fyn-instelling (SFT) data vir gebruik in daaropvolgende opleidingsrondtes.
      • Anders as die aanvanklike koue-begin data, wat net op afleiding fokus, het hierdie fase ten doel om die model se vermoëns uit te brei om skryf, rolspel en ander algemene take te dek, nie net afleiding nie.
    • Data-insameling – Inferensiedata:
      • Metode: Gebruik kontrolepunte verkry uit die inferensie-georiënteerde RL-fase om inferensietrajekte te genereer deur verwerpingsteekproefneming.
      • Datastel uitbreiding: Anders as die vorige RL-fase, wat slegs reëlgebaseerde beloningsdata gebruik het, word nie-reëlgebaseerde beloningsdata hier bekendgestel. In sommige gevalle word 'n generatiewe beloningsmodel (DeepSeek-V3) gebruik om die reaksie te bepaal.
      • Datafiltrering: Om kwaliteit en leesbaarheid te verseker, word die uitset gefiltreer om te verwyder:
        • gedagtekettings wat gemengde tale bevat
        • lang paragrawe
        • kode blokke
      • Steekproefneming en seleksie: Vir elke opdrag is verskeie antwoorde gegenereer. Slegs die "korrekte" antwoord is vir die datastel behou.
      • Datastelgrootte: Ongeveer 600 000 afleidingsverwante opleidingsmonsters is op hierdie manier ingesamel.
    • Data-insameling – nie-afleidingsdata:
      • Dekking: Skryf, feitelike vraag beantwoord (QA), selfbewustheid en vertaling.
      • Die koerant maak melding van die gebruik van DeepSeek-V3 se proses en hergebruik deel van die DeepSeek-V3 SFT datastel om hierdie nie-afleidingstake te hanteer. Oor 200 000 afleiding-onafhanklike monsters is ingesamel. (Let wel: Die besonderhede van die versameling van nie-afleidingsdata word verder beskryf in Afdeling 2.3.4)
    • Gebruik van versamelde data:
      • Die versamelde beredenerings- en nie-redenerende data ('n totaal van ongeveer 800 000 steekproewe – 600 000 beredeneringsmonsters + 200 000 nie-redenerende steekproewe) is dan gebruik om verfyn die DeepSeek-V3-Basis-model vir twee tydperke. Hierdie fyn-ingestelde model is dan gebruik in die finale RL fase beskryf in Afdeling 2.3.4.
    • Opsomming Hierdie stap gebruik die afleidingsvermoëns deur RL geleer om 'n diverse en hoëgehalte SFT-datastel te genereer. Hierdie datastel versterk die afleidingsvermoëns en brei ook die algemene vermoëns van uit die model vir opleiding in die finale belynings- en verbeteringsfase.
  • Versterkingsleer vir alle scenario's: Om menslike voorkeure verder te belyn, word 'n tweede fase van versterkingsleer geïmplementeer om die model se hulpvaardigheid en onskadelikheid te verbeter.
    • Inferensiedata: bv wiskunde, kode, logiese afleiding of toesig met reëlbasismetodes.
    • Algemene data: beloningsmodelle word steeds gebruik om voorkeurinligting vir komplekse en subtiele scenario's te verskaf. Modelle wat met paarsgewyse data opgelei is, word ook beraam.
    • Nut: fokus slegs op die finale opsommingsresultate, wat inmenging met die afleidingsproses verminder.
    • Skadeloosheid: hou toesig oor die hele reaksie om enige risiko's te verminder.

Modeldistillasie (Distillasie):

  • Om 'n meer doeltreffende klein afleidingsmodel te verkry, distilleer die vraestel die afleidingsvermoë van DeepSeek-R1 in die oopbronmodelle van die Qwen- en Llama-reeks. Die distillasie proses gebruik slegs onder toesig fyninstelling (SFT) en gebruik nie die versterkingsleerstadium nie.

Gevolgtrekking

DeepSeek-R1-Nul: Demonstreer die potensiaal van suiwer versterkende leer in die motivering van LLM-afleidingsvermoë, en kan sterk prestasie behaal sonder om op data onder toesig staat te maak.

  • Aha-oomblik: Die skoonheid van versterkingsleer (die model se oomblik van verligting, waar dit ken meer dinktyd vir 'n probleem toe deur te leer om te herevalueer die aanvanklike benadering)
  • Die uitsetlengte neem steeds toe (denktyd neem steeds toe)
  • Die akkuraatheid verbeter steeds (steekproefneming van 16 antwoorde om die akkuraatheid te bereken)
  • DeepSeek-R1: Verbeter modelwerkverrigting verder deur koue-begin-data te kombineer en iteratiewe versterking-leer fyn-instelling, bereiking van 'n vlak vergelykbaar met OpenAI-01-1217 op verskeie take.
  • Kennis distillasie: Deur DeepSeek-R1 as 'n onderwysermodel te gebruik, is 800K opleidingsmonsters gegenereer en verskeie klein, digte modelle is verfyn. Die resultate toon dat dit distillasiemetode kan die afleidingsvermoë van aansienlik verbeter klein modelle.

Beperking

  • Beperking 1: Die algemene vermoë van DeepSeek-R1 moet verbeter word. DeepSeek-R1 is steeds minderwaardig as DeepSeek-V3 in take soos funksie-oproepe, multi-draai dialoog, komplekse rolspel en JSON-uitvoer.
  • Beperking 2: Taalvermengingsprobleem. DeepSeek-R1 kan 'n taalvermengingsprobleem teëkom wanneer nie-Chinese en nie-Engelse navrae verwerk word, byvoorbeeld redenering en reaksie in Engels.
  • Beperking 3: Vinnige sensitiwiteit. DeepSeek-R1 is sensitief vir vinnige woorde, en min-skoot-aansporing sal sy werkverrigting verminder.
  • Beperking 4: Beperkte toepassing op sagteware-ingenieurstake. As gevolg van die lang evalueringstyd is grootskaalse versterkingsleer nie ten volle toegepas op sagteware-ingenieurstake nie, en DeepSeek-R1 het beperkte verbetering bo DeepSeek-V3 in sagteware-ingenieurswese-maatstawwe.

Soortgelyke plasings

Maak 'n opvolg-bydrae

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde word met * aangedui