Vandaag delen we DeepSeek R1, Titel: DeepSeek-R1: Stimulering van het redeneervermogen in LLM's via reinforcement learning: Stimulering van het redeneervermogen van LLM's via reinforcement learning.

In dit artikel wordt de eerste generatie redeneermodellen van DeepSeek geïntroduceerd, Diepe kijk-R1-Nul en DeepSeek-R1Het DeepSeek-R1-Zero-model werd getraind door grootschalige reinforcement learning (RL) zonder supervised fine-tuning (SFT) als eerste stap, wat het potentieel van RL en de superieure redeneervermogens aantoont het brengt. Door reinforcement learning, DeepSeek-R1-Zero ontstond op natuurlijke wijze met veel krachtige en interessante redeneergedragingenOm enkele problemen met R1-Zero (taalkundige verwarring, verbeterd generalisatievermogen) verder te optimaliseren, brachten ze DeepSeek-R1, die multi-stage training en cold-start data fine-tuning combineert vóór reinforcement learning. DeepSeek-R1 behaalde vergelijkbare prestaties op de redeneertaak met OpenAI-01-1217. Om de onderzoeksgemeenschap te ondersteunen, hebben ze open-source DeepSeek-R1-Zero, DeepSeek-R1 en zes dichte modellen (1,5B, 7B, 8B, 14B, 32B, 70B) gedistilleerd uit DeepSeek-R1, die zijn gebaseerd op Qwen en Llama.

De kenmerken van de methode kunnen als volgt worden samengevat:

  1. Reinforcement learning wordt direct op het basismodel toegepast, zonder dat er in eerste instantie een beroep wordt gedaan op supervised fine-tuning (SFT).
  2. Het DeepSeek-R1-ontwikkelingsproces wordt geïntroduceerd, dat combineert twee reinforcement learning-fasen en twee supervised fine-tuning-fasen om de basis te leggen voor de redeneer- en niet-redeneervermogens van het model.
  3. De prestaties van kleine modellen bij redeneertaken worden verbeterd door de redeneerpatronen van grote modellen over te brengen naar kleine modellen via destillatietechnieken.

Overzicht

Motivatie

  • De huidige grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt op het gebied van inferentietaken, maar kennen nog steeds uitdagingen.
  • Het potentieel van puur reinforcement learning (RL) bij het verbeteren van het redeneervermogen van LLM's is nog niet volledig onderzocht, vooral zonder dat er afhankelijk wordt van gecontroleerde gegevens.
  • Modellen die getraind zijn via RL, zoals DeepSeek-R1-Zero, heeft problemen met leesbaarheid en taalvermenging (bijvoorbeeld Chinees en Engels door elkaar), en moet verder worden verbeterd om de gebruiksvriendelijkheid te verbeteren.

Methoden

DeepSeek-R1-Nul: Gebruikt DeepSeek-V3-Base als basismodel en GRPO (Group Relative Policy Optimization) als versterkend leren kader, zonder toezicht op gegevens om de prestaties van het model bij het afleiden te verbeteren.

DeepSeek-R1:

  • Koude start: Verzamelt een kleine hoeveelheid hoogwaardige lange CoT (Chain-of-Thought)-gegevens en verfijnt de DeepSeek-V3-Basismodel als de initiële actor voor reinforcement learning.
  • Op redeneren gerichte versterkingsleer: Hetzelfde versterkingsleertrainingsproces zoals DeepSeek-R1-Zero wordt toegepast, maar met een focus op het verbeteren van het redeneervermogen van het model op gebieden zoals coderen, wiskunde, wetenschap en logisch redeneren. Linguïstische consistentiebeloningen worden geïntroduceerd om het probleem van linguïstische vermenging dat in CoT voorkomt, te verzachten.
  • Afwijzingsbemonstering en begeleide fijnafstemming: Maakt gebruik van het geconvergeerde controlepunt van reinforcement learning om Verzamel Supervised Fine-Tuning (SFT)-gegevens voor vervolgopleidingen.
  • Reinforcement Learning voor alle scenario's: implementeert een reinforcement learning-fase op het tweede niveau, die gericht is op het verbeteren van de behulpzaamheid en onschadelijkheid van het model, terwijl het redeneervermogen ervan wordt geoptimaliseerd.
  • Kennis distillatie: Verfijnt de open source-modellen Qwen en Llama rechtstreeks met behulp van de 800.000 samples die zijn samengesteld door DeepSeek-R1.

Gedetailleerde methoden en procedures:

DeepSeek-R1-Zero: Reinforcement learning voor basismodellen

  • Algoritme voor versterkend leren: Maakt gebruik van het Group Relative Policy Optimization (GRPO)-algoritme, dat heeft geen criticus model, schat de basislijn op basis van groepsscores en verlaagt de trainingskosten.
  • Beloningsmodellering: Gebruikt een op regels gebaseerd beloningssysteem, inbegrepen
  • nauwkeurigheidsbeloning: Evalueert of het antwoord correct is, zoals de correctheid van het eindresultaat van de antwoord op wiskundeprobleem, de feedback van de compiler voor codeproblemen.
  • Formaat beloning: Moedigt het model aan om plaats het denkproces tussen en etiketten.

Trainingsjabloon: Een sjabloon met en tags zijn ontworpen om het model begeleiden om eerst het denkproces uit te voeren en vervolgens het definitieve antwoord.

  • Zelf-evolutionair proces: DeepSeek-R1-Zero gedemonstreerd zelf-evolutionaire kenmerken tijdens de training, en was in staat om autonoom complexere redeneringsstrategieën te leren, zoals reflectie en verkenning van meerdere probleemoplossingspaden.

DeepSeek-R1: Reinforcement learning gecombineerd met koude start

  • Koude start: Om DeepSeek-R1-Zero's op te lossen leesbaarheidsprobleem, DeepSeek-R1 verzamelt eerst een kleine hoeveelheid hoogwaardige CoT-gegevens en verfijnt het DeepSeek-V3-Base-model om dienen als de eerste actor voor reinforcement learningDe koude startgegevens bevat samenvattingstags en onvriendelijke reacties worden uitgefilterd.
    • Methode: 1) Selecteer hoogwaardige Long COT-gegevens. 2) Voeg tags toe.
    • Voordelen: 1) Geoptimaliseerde leesbaarheid (lost het meertalige probleem van R1-Zero of het markdown-formaatprobleem op). 2) Zorgvuldig geselecteerde, door mensen geprefereerde gegevens kunnen de prestaties van R1-Zero blijven verbeteren.
    • Vraag: Waarom het leesbaarheidsprobleem oplossen? Is het niet mogelijk om het beter te doen zonder het op te lossen (bijvoorbeeld door de lengte van de uitvoer te verkorten en efficiënter af te leiden)?
  • Redeneergericht RL: Op basis van het koudstartmodel wordt een versterkingsleerproces toegepast dat vergelijkbaar is met DeepSeek-R1-Zero wordt toegepast, met de nadruk op het verbeteren van het vermogen van het model in taken zoals codering, wiskunde, wetenschappelijk en logisch redenerenOm het probleem van gemengde talen op te lossen (meertalig redeneren), taalconsistentie beloningen worden geïntroduceerd.
    • Vraag: Hoe worden wetenschappelijke en logische redeneertaken en datasets getraind?
  • Afwijzingsbemonstering en SFT: Nadat het op inferentie gebaseerde versterkende leren convergeert, wordt het verkregen controlepunt gebruikt voor afwijzingssampling om nieuwe SFT-gegevens te genereren, die worden gecombineerd met de gegevens van DeepSeek-V3 om de mogelijkheden van het model op het gebied van schrijven, rollenspellen en algemene taken te verbeteren.
    • Doel:
      • Deze fase wordt gestart nadat de Het op inferentie gerichte versterkingsleerproces (RL) convergeert.
      • Het hoofddoel is om Verzamel gegevens over gesuperviseerde fine-tuning (SFT) voor gebruik in volgende trainingsrondes.
      • In tegenstelling tot de initiële cold-start-gegevens, die zich alleen richten op inferentie, is deze fase gericht op de mogelijkheden van het model uitbreiden om schrijven, rollenspellen en andere algemene taken te dekken, niet alleen inferentie.
    • Gegevensverzameling – Inferentiegegevens:
      • Methode: Gebruik controlepunten die zijn verkregen uit de op inferentie gerichte RL-fase om inferentietrajecten te genereren door middel van rejection sampling.
      • Uitbreiding van de dataset: In tegenstelling tot de vorige RL-fase, die alleen regelgebaseerde beloningsgegevens gebruikte, worden hier niet-regelgebaseerde beloningsgegevens geïntroduceerd. In sommige gevallen wordt een generatief beloningsmodel (DeepSeek-V3) gebruikt om de respons te bepalen.
      • Gegevens filteren: Om de kwaliteit en leesbaarheid te waarborgen, wordt de uitvoer gefilterd om het volgende te verwijderen:
        • gedachteketens die gemengde talen bevatten
        • lange paragrafen
        • codeblokken
      • Bemonstering en selectie: Voor elke prompt werden meerdere antwoorden gegenereerd. Alleen het "correcte" antwoord werd behouden voor de dataset.
      • Datasetgrootte: Ongeveer 600.000 trainingsvoorbeelden met betrekking tot inferentie werden op deze manier verzameld.
    • Gegevensverzameling – niet-inferentiegegevens:
      • Onderwerpen: Schrijven, feitelijke vraagbeantwoording (QA), zelfbewustzijn en vertaling.
      • In het artikel wordt het gebruik van DeepSeek-V3's proces en hergebruikt een deel van de DeepSeek-V3 SFT-dataset om deze niet-inferentietaken te verwerken. Over 200.000 inferentie-onafhankelijke steekproeven werden verzameld. (Opmerking: De details van het verzamelen van niet-inferentiegegevens worden verder beschreven in Sectie 2.3.4)
    • Gebruik van verzamelde gegevens:
      • De verzamelde redeneer- en niet-redeneergegevens (in totaal ongeveer 800.000 steekproeven – 600.000 redeneersteekproeven + 200.000 niet-redeneersteekproeven) werden vervolgens gebruikt om het DeepSeek-V3-Base-model voor twee tijdperken verfijnenDit verfijnde model werd vervolgens gebruikt in de laatste RL-fase, zoals beschreven in paragraaf 2.3.4.
    • Samenvatting Deze stap maakt gebruik van de inferentiemogelijkheden geleerd via RL om een diverse en hoogwaardige SFT-dataset te genereren. Deze dataset versterkt de inferentiemogelijkheden en breidt ook de algemene mogelijkheden van het model voor training in de laatste afstemmings- en verbeteringsfase.
  • Reinforcement Learning voor alle scenario's: Om het model nog beter af te stemmen op menselijke voorkeuren, wordt een tweede fase van reinforcement learning geïmplementeerd om de behulpzaamheid en onschadelijkheid van het model te verbeteren.
    • Afleidingsgegevens: bijvoorbeeld wiskunde, code, logische gevolgtrekking of begeleid met op regels gebaseerde methoden.
    • Algemene gegevens: beloningsmodellen worden nog steeds gebruikt om voorkeursinformatie te verstrekken voor complexe en subtiele scenario's. Modellen die zijn getraind met paargewijze gegevens worden ook geschat.
    • Nut: richt u alleen op de uiteindelijke samenvattingsresultaten, waardoor u zo min mogelijk last heeft van verstoringen in het gevolgtrekkingsproces.
    • Onschadelijkheid: houd toezicht op de gehele respons om risico's te beperken.

Modeldestillatie (Destillatie):

  • Om een efficiënter klein inferentiemodel te verkrijgen, distilleert het artikel het inferentievermogen van DeepSeek-R1 in de open source-modellen van de Qwen- en Llama-serie. Het distillatieproces maakt alleen gebruik van supervised fine-tuning (SFT) en maakt geen gebruik van de reinforcement learning-fase.

Conclusie

Diepe kijk-R1-Nul: Toont het potentieel van zuiver versterkend leren bij het motiveren van het LLM-inferentievermogen, en kan sterke prestaties leveren zonder afhankelijk te zijn van gecontroleerde gegevens.

  • Aha-moment: De schoonheid van reinforcement learning (het moment van verlichting van het model, waarin het besteedt meer tijd aan het nadenken over een probleem door te leren het opnieuw te evalueren de initiële benadering)
  • De uitvoerlengte blijft toenemen (de denktijd blijft toenemen)
  • De nauwkeurigheid blijft verbeteren (steekproef van 16 antwoorden om de nauwkeurigheid te berekenen)
  • DeepSeek-R1: Verbetert de modelprestaties verder door koude-startgegevens en iteratieve versterkingsleerfijnafstemming te combineren, het behalen van een niveau vergelijkbaar met OpenAI-01-1217 op verschillende taken.
  • Kennis distillatie: Met behulp van DeepSeek-R1 als een leraarmodel werden 800K trainingsmonsters gegenereerd en werden verschillende kleine, dichte modellen verfijnd. De resultaten laten zien dat dit De destillatiemethode kan het afleidingsvermogen van kleine modellen.

Beperking

  • Beperking 1: De algemene functionaliteit van DeepSeek-R1 moet worden verbeterd. DeepSeek-R1 is nog steeds inferieur aan DeepSeek-V3 bij taken zoals functieaanroepen, multi-turn dialogen, complexe rollenspellen en JSON-uitvoer.
  • Beperking 2: Probleem van taalvermenging. DeepSeek-R1 kan een taalmengprobleem tegenkomen bij het verwerken van niet-Chinese en niet-Engelstalige vragen, bijvoorbeeld bij het redeneren en beantwoorden in het Engels.
  • Beperking 3: Snelle gevoeligheid. De DeepSeek-R1 is gevoelig voor promptwoorden en bij een paar prompts worden de prestaties minder.
  • Beperking 4: Beperkte toepassing op software engineering-taken. Vanwege de lange evaluatietijd is reinforcement learning op grote schaal nog niet volledig toegepast op software engineering-taken en is de verbetering van DeepSeek-R1 ten opzichte van DeepSeek-V3 in benchmarks voor software engineering beperkt.

Vergelijkbare berichten

Geef een reactie

Uw e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *