Abstraktne

Käesolevas dokumendis tutvustatakse DeepSeek esimese põlvkonna arutlusmudeleid: DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero, mis on koolitatud laiaulatusliku tugevdava õppimise (RL) abil ilma juhitud peenhäälestuseta (SFT), näitab märkimisväärset arutlusvõimet. RL-i abil arendab see loomulikult võimsat arutluskäitumist. Siiski seisab see silmitsi selliste probleemidega nagu halb loetavus ja keele segunemine. Nende probleemide lahendamiseks ja arutlusvõime suurendamiseks töötati välja DeepSeek-R1, mis sisaldab mitmeastmelist koolitust ja külma alguse andmeid enne RLi. DeepSeek-R1 saavutab OpenAI-o1-1217-ga võrreldava tulemuslikkuse arutlusülesannete lahendamisel. Uuringute toetamiseks on DeepSeek avatud allikas mõlemad mudelid ja kuus tihedat mudelit (1,5B, 7B, 8B, 14B, 32B, 70B), mis on destilleeritud DeepSeek-R1-st, mis põhinevad Qwenil ja Llamal.

Peamised panused

Koolitusjärgne koolitus: Suuremahuline tugevdamise õppimine

  • Edukalt rakendatud RL otse baasmudelile ilma SFT-ta.
  • Arendatud DeepSeek-R1-Zero, mis demonstreerib selliseid võimeid nagu enesekontroll ja peegeldus.
  • Esimene avatud uurimus, mis kinnitab, et arutlusvõimet saab stimuleerida üksnes RL-i kaudu.
  • DeepSeek-R1 jaoks kasutusele võetud torujuhe kahe RL- ja kahe SFT-astmega.

Destilleerimine: Väiksemate mudelite võimestamine

  • Näidati, et suuremate mudelite arutlusmustreid saab tõhusalt destilleerida väiksemateks mudeliteks
  • Avatud DeepSeek-R1 ja selle API, et tuua kasu teadusringkondadele.
  • Mitmete tihedate mudelite peenhäälestamine, mis näitab erakordset võrdlusnäitajat.
  • Destilleeritud mudelid ületavad märkimisväärselt varasemaid avatud lähtekoodiga mudeleid

Hindamise tulemused

Põhjendamisülesanded

  • DeepSeek-R1 saavutab 79,8% Pass@1 AIME 2024, ületades OpenAI-o1-1217-i
  • 97,3% skoor MATH-500, mis on võrdne OpenAI-o1-1217-ga.
  • Ekspert-tasemel jõudlus koodivõistluse ülesannetes, mille Elo reiting on 2,029 Codeforces'ile.

Teadmiste ülesanded

  • Suurepärased tulemused MMLU (90,8%), MMLU-Pro (84,0%) ja GPQA Diamond (71,5%) puhul.
  • Ületab teisi suletud lähtekoodiga mudeleid haridusülesannete täitmisel
  • Tugev tulemuslikkus faktilistes võrdlusuuringutes nagu SimpleQA

Üldised võimalused

  • Eristub loomingulises kirjutamises, küsimustele vastamises, toimetamises ja kokkuvõtete tegemises.
  • 87.6% võidu määr AlpacaEval 2.0 ja 92.3% ArenaHard'il
  • Tugev tulemuslikkus pikaajaliste kontekstide mõistmise ülesannetes

Tulevane töö

Meeskond kavatseb keskenduda järgmistele teemadele:

  1. Üldiste võimete suurendamine sellistes valdkondades nagu funktsioonide kutsumine ja keerulised rollimängud
  2. Keele segunemise probleemidega tegelemine
  3. Parandada ajendustehnikat
  4. Tarkvaratehniliste ülesannete täitmise tõhustamine

Kokkuvõte

DeepSeek-R1 kujutab endast märkimisväärset edasiminekut tehisintellekti arutlusvõimekuses tugevdava õppimise kaudu. Nii põhimudeli kui ka selle destilleeritud versioonide edu näitab selle lähenemisviisi potentsiaali võimekamate tehisintellekti süsteemide arendamisel. Nende mudelite avatud lähtekoodiga avaldamine aitab kaasa edasistele teadusuuringutele ja arendustegevusele selles valdkonnas.

Sarnased postitused

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga