Abstract

Dit artikel introduceert DeepSeek's eerste generatie redeneermodellen: DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, getraind door grootschalig reinforcement learning (RL) zonder supervised fine-tuning (SFT), toont opmerkelijke redeneercapaciteiten. Door RL ontwikkelt het op natuurlijke wijze krachtig redeneergedrag. Het heeft echter te kampen met uitdagingen zoals slechte leesbaarheid en taalvermenging. Om deze problemen aan te pakken en de redeneerprestaties te verbeteren, werd DeepSeek-R1 ontwikkeld, met meerfasentraining en cold-start data vóór RL. DeepSeek-R1 bereikt prestaties die vergelijkbaar zijn met die van OpenAI-o1-1217 bij redeneertaken. Om onderzoek te ondersteunen, opent DeepSeek beide modellen en zes dichte modellen (1,5B, 7B, 8B, 14B, 32B, 70B) gedistilleerd uit DeepSeek-R1 op basis van Qwen en Llama.

Belangrijkste bijdragen

Nascholing: Grootschalig versterkingsleren

  • RL met succes direct toegepast op het basismodel zonder SFT
  • Ontwikkelde DeepSeek-R1-Zero en demonstreerde mogelijkheden zoals zelfverificatie en reflectie.
  • Eerste open onderzoek dat valideert dat redeneervermogen puur via RL kan worden gestimuleerd
  • Geïntroduceerde pijplijn voor DeepSeek-R1 met twee RL-stappen en twee SFT-stappen

Distillatie: Empowerment van kleinere modellen

  • Aangetoond dat redeneerpatronen uit grotere modellen effectief kunnen worden gedistilleerd in kleinere modellen
  • Open-sourced DeepSeek-R1 en zijn API ten voordele van de onderzoeksgemeenschap
  • Fijnafstelling van verschillende dichte modellen met uitzonderlijke benchmarkprestaties
  • Gedestilleerde modellen presteren aanzienlijk beter dan eerdere open-source modellen

Evaluatieresultaten

Redeneertaken

  • DeepSeek-R1 behaalt 79,8% Pass@1 op AIME 2024 en overtreft daarmee OpenAI-o1-1217
  • 97,3% score op MATH-500, vergelijkbaar met OpenAI-o1-1217
  • Prestaties op expertniveau in codecompetitietaken met een Elo-rating van 2.029 op Codeforces

Kennis Taken

  • Uitstekende resultaten op MMLU (90,8%), MMLU-Pro (84,0%) en GPQA Diamond (71,5%).
  • Overtreft andere closed-source modellen in educatieve taken
  • Sterke prestaties op feitelijke benchmarks zoals SimpleQA

Algemene mogelijkheden

  • Blinkt uit in creatief schrijven, vragen beantwoorden, redigeren en samenvatten
  • 87,6% win-rate op AlpacaEval 2.0 en 92,3% op ArenaHard
  • Sterke prestaties in lange-contextbegriptaken

Toekomstig werk

Het team is van plan zich te richten op:

  1. Verbeteren van algemene vaardigheden op gebieden zoals het oproepen van functies en complexe rollenspellen
  2. Problemen met taalvermenging aanpakken
  3. Engineering voor prompting verbeteren
  4. Prestaties verbeteren bij software-engineeringtaken

Conclusie

DeepSeek-R1 vertegenwoordigt een aanzienlijke vooruitgang in AI-redeneervermogen door middel van versterkend leren. Het succes van zowel het hoofdmodel als de gedistilleerde versies ervan toont het potentieel van deze benadering voor het ontwikkelen van meer capabele AI-systemen. De open-source release van deze modellen zal bijdragen aan verder onderzoek en ontwikkeling op dit gebied.

Vergelijkbare berichten

Geef een reactie

Uw e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *