Täna jagame DeepSeek R1, Pealkiri: DeepSeek-R1: LLM-ide arutlusvõime stimuleerimine tugevdava õppe kaudu: LLM-i arutlusvõime stimuleerimine tugevdava õppe kaudu.

See artikkel tutvustab DeepSeek esimese põlvkonna arutlusmudeleid, DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero mudel koolitati läbi suuremahuline tugevdusõpe (RL) ilma juhendatud peenhäälestuseta (SFT) kui esimene samm, mis näitab RL-i potentsiaali ja suurepärast arutlusvõimet see toob. Tugevdusõppe kaudu DeepSeek-R1-Zero tekkis loomulikult paljude võimsate ja huvitavate arutluskäitumistega. R1-Zero mõningate probleemide (keelelised segadused, parem üldistusvõime) edasiseks optimeerimiseks avaldasid nad DeepSeek-R1, mis ühendab endas mitmeastmelise treeningu ja külmkäivituse andmete peenhäälestuse enne armeerimisõpet. DeepSeek-R1 saavutas võrreldava jõudluse arutlusülesande kohta OpenAI-01-1217-ga. Teadlaskonna toetamiseks on neil avatud lähtekoodiga DeepSeek-R1-Zero, DeepSeek-R1 ja kuus tihedat mudelit (1.5B, 7B, 8B, 14B, 32B, 70B), mis on destilleeritud DeepSeek-R1-st, mis põhinevad Qwenil ja Llamal.

Meetodi omadused on kokku võetud järgmiselt:

  1. Tugevdusõpet rakendatakse otse baasmudelile, ilma esimese sammuna lootmata järelevalvega peenhäälestamisele (SFT).
  2. Tutvustatakse DeepSeek-R1 arendusprotsessi, mis ühendab kaks tugevdamise õppimise faasi ja kaks juhendatud peenhäälestuse faasi, et panna alus mudeli arutlusvõimele ja mittemõtlemisvõimele.
  3. Väikeste mudelite jõudlust arutlusülesannetele parandab suurte mudelite arutlusmustrite ülekandmine väikestele mudelitele destilleerimistehnikad.

Ülevaade

Motivatsioon

  • Praegused suured keelemudelid (LLM-id) on järeldusülesannetes teinud märkimisväärseid edusamme, kuid seisavad silmitsi väljakutsetega.
  • Puhta potentsiaal Tugevdusõpe (RL) LLM-ide arutlusvõime parandamisel ei ole täielikult uuritud, eriti ilma jälgitavatele andmetele tuginemata.
  • RL kaudu koolitatud mudelid, nt DeepSeek-R1-Zero, neil on probleeme loetavuse ja keelte segamisega (nt hiina ja inglise keele segamine) ning kasutajasõbralikkuse parandamiseks on vaja täiendavaid parandusi.

meetodid

DeepSeek-R1-Zero: Kasutab baasmudelina DeepSeek-V3-Base'i ja GRPO (Group Relative Policy Optimization) õppimise tugevdamiseks raamistik, ilma järelevalveandmeteta, et parandada mudeli jõudlust järelduste tegemisel.

DeepSeek-R1:

  • Külmkäivitus: Kogub väikese koguse kvaliteetseid pikki CoT-andmeid (Chain-of-thought) ja täpsustab DeepSeek-V3-Base mudel kui tugevdusõppe esialgne osaleja.
  • Arutlusvõimele orienteeritud tugevdamisõpe: Sama DeepSeek-R1-Zero tugevdamise õppeprotsessi rakendatakse, kuid keskendutakse mudeli arutlusvõime parandamisele sellistes valdkondades nagu kodeerimine, matemaatika, loodusteadused ja loogiline mõtlemine. Keelelise järjepidevuse preemiad võetakse kasutusele, et leevendada keelelise segunemise probleemi, mis esineb CoT-s.
  • Tagasilükkamise proovide võtmine ja järelevalvega peenhäälestus: Kasutab tugevdamise õppimise koondatud kontrollpunkti koguda jälgitud peenhäälestuse (SFT) andmeid järgnevaks koolituseks.
  • Tugevdusõpe kõigi stsenaariumide jaoks: rakendab teise taseme tugevdamisõppe etappi, mille eesmärk on parandada mudeli abivalmidus ja kahjutus, optimeerides samal ajal selle arutlusvõimet.
  • Teadmiste destilleerimine: Peenhäälestage avatud lähtekoodiga mudelid Qwen ja Llama otse, kasutades DeepSeek-R1 kureeritud 800 000 näidist.

Üksikasjalikud meetodid ja protseduurid:

DeepSeek-R1-Zero: baasmudelite tugevdamise õpe

  • Tugevdamise õppe algoritm: Kasutab rühma suhtelise poliitika optimeerimise (GRPO) algoritmi, mis ei nõua a kriitik mudelit, hindab algtaseme rühmade skooride järgi ja vähendab koolituskulusid.
  • Preemia modelleerimine: Kasutab a reeglitel põhinev tasusüsteem, sealhulgas
  • täpsuse tasu: Hindab, kas vastus on õige, näiteks lõpptulemuse õigsust matemaatikaülesannete vastus, koodiülesannete kompilaatori tagasiside.
  • Preemia vormindamine: Julgustab modelli tegema asetage mõtlemisprotsess vahele ja sildid.

Koolituse mall: Mall, mis sisaldab ja sildid on mõeldud suunake mudelit esmalt mõtlemisprotsessi väljastama ja seejärel lõplikule vastusele.

  • Eneseevolutsiooniline protsess: DeepSeek-R1-Zero demonstreeritud enesearenguomadused koolituse ajal ja suutis iseseisvalt õppida keerukamaid arutlusstrateegiaid, nagu näiteks peegeldamine ja mitmete probleemide lahendamise viiside uurimine.

DeepSeek-R1: tugevdusõpe kombineerituna külmkäivitusega

  • Külmkäivitus: DeepSeek-R1-Zero lahendamiseks loetavuse probleem, DeepSeek-R1 kogub esmalt väikese koguse kvaliteetsed CoT andmed ja peenhäälestatakse DeepSeek-V3-Base mudelit olla tugevdava õppe algosaline. Külmkäivituse andmed sisaldab kokkuvõtlikke silte ja ebasõbralikke vastuseid filtreeritakse välja.
    • Meetod: 1) Valige kvaliteetsed Long COT andmed. 2) Lisa ja sildid.
    • Eelised: 1) Optimeeritud loetavus (lahendage R1-Zero mitmekeelse probleem või allahindluse vormingu probleem). 2) Hoolikalt valitud inimeste eelistatud andmed võivad R1-Zero jõudlust jätkuvalt parandada.
    • Küsimus: Miks lahendada loetavuse probleem? Kas ilma seda lahendamata (nt väljundi pikkust vähendades ja tõhusamalt järeldades) pole võimalik paremini teha?
  • Arutlusvõimele orienteeritud RL: Külmkäivitusmudelil põhinev tugevdusõppeprotsess sarnaneb Rakendatakse DeepSeek-R1-Zero, mis keskendub mudeli suutlikkuse parandamisele sellistes ülesannetes nagu kodeerimine, matemaatika, teaduslik ja loogiline mõtlemine. Segakeelte probleemi lahendamiseks (mitmekeelne arutluskäik), keele järjepidevuse preemia tutvustatakse.
    • Küsimus: Kuidas koolitatakse teaduslikke ja loogilisi arutlusülesandeid ja andmekogusid?
  • Tagasilükkamise proovivõtt ja SFT: Pärast seda, kui järeldamisel juhitud tugevdusõpe läheneb, kasutatakse saadud kontrollpunkti tagasilükkamise diskreetimine uute SFT-andmete genereerimiseks, mis kombineeritakse DeepSeek-V3 andmetega, et täiustada mudeli võimalusi kirjutamisel, rollimängudel ja üldistel ülesannetel.
    • Eesmärk:
      • See etapp algab pärast järeldusele orienteeritud tugevdusõppe (RL) protsess läheneb.
      • Peamine eesmärk on koguda järelevalvega peenhäälestuse (SFT) andmeid kasutamiseks järgnevatel treeningringidel.
      • Erinevalt esialgsetest külmkäivitusandmetest, mis keskenduvad ainult järeldustele, on selle etapi eesmärk laiendada mudeli võimalusi et hõlmata kirjutamist, rollimänge ja muid üldotstarbelisi ülesandeid, mitte ainult järeldamist.
    • Andmete kogumine – järeldusandmed:
      • Meetod: Kasutage järeldustele orienteeritud RL-faasist saadud kontrollpunkte, et genereerida tagasilükkamise valimi abil järeldustrajektoore.
      • Andmekogumi laiendamine: Erinevalt eelmisest RL-i faasist, kus kasutati ainult reeglipõhiseid preemiaandmeid, tutvustatakse siin mitte-reeglipõhiseid preemiaandmeid. Mõnel juhul kasutatakse vastuse määramiseks generatiivse tasu mudelit (DeepSeek-V3).
      • Andmete filtreerimine: Kvaliteedi ja loetavuse tagamiseks filtreeritakse väljund, et eemaldada:
        • segakeeli sisaldavad mõtteahelad
        • pikad lõigud
        • koodiplokid
      • Proovide võtmine ja valik: Iga viipa jaoks genereeriti mitu vastust. Andmestiku jaoks säilitati ainult "õige" vastus.
      • Andmestiku suurus: Ligikaudu 600 000 järeldustega seotud koolitusnäidist koguti sel viisil.
    • Andmete kogumine – järeldusteta andmed:
      • Katvus: kirjutamine, faktilistele küsimustele vastamine (QA), eneseteadvus ja tõlkimine.
      • Lehes mainitakse kasutamist DeepSeek-V3 töötleb ja taaskasutab osa DeepSeek-V3 SFT andmekogumist nende mittejärgitavate ülesannete täitmiseks. Umbes 200 000 järeldusest sõltumatut näidist koguti. (Märkus. Järeldusteta andmete kogumise üksikasju kirjeldatakse täpsemalt jaotises 2.3.4)
    • Kogutud andmete kasutamine:
      • Seejärel kasutati kogutud arutlus- ja mittepõhjendusandmeid (kokku umbes 800 000 näidist – 600 000 arutlusnäidist + 200 000 põhjendamatut valimit). peenhäälestage DeepSeek-V3-Base mudelit kahe ajastu jaoks. Seda peenhäälestatud mudelit kasutati seejärel punktis 2.3.4 kirjeldatud viimases RL-faasis.
    • Kokkuvõte See samm kasutab järeldamisvõimalusi õppis RL kaudu mitmekesist ja kvaliteetset SFT-andmestikku genereerima. See andmestik tugevdab järeldamisvõimalusi ja laiendab ka üldisi võimalusi koolituse mudel lõplikus joondamise ja täiustamise etapis.
  • Tugevdusõpe kõigi stsenaariumide jaoks: Inimeste eelistuste edasiseks ühtlustamiseks rakendatakse tugevdamisõppe teist etappi, et parandada mudeli abivalmidust ja kahjutust.
    • Järeldusandmed: nt matemaatika, kood, loogiline järeldus või reeglibaasmeetoditega juhendatud.
    • Üldandmed: tasumudeleid kasutatakse endiselt keerukate ja peente stsenaariumide eelistusteabe pakkumiseks. Hinnatakse ka paarisandmetega treenitud mudeleid.
    • Kasulikkus: keskenduge ainult lõplikele kokkuvõtlikele tulemustele, vähendades häireid järeldusprotsessis.
    • Kahjutus: riskide vähendamiseks jälgige kogu reaktsiooni.

Näidisdestilleerimine (destilleerimine):

  • Tõhusama väikese järeldusmudeli saamiseks destilleeritakse paberis DeepSeek-R1 järeldusvõime Qweni ja Llama seeria avatud lähtekoodiga mudelitesse. Destilleerimisprotsess kasutab ainult järelevalvet peenhäälestust (SFT) ja ei kasuta tugevdusõppe etappi.

Kokkuvõte

DeepSeek-R1-Zero: Näitab potentsiaali puhas tugevdusõpe, mis motiveerib LLM-i järeldusvõimet ja võib saavutada tugevaid tulemusi ilma jälgitavatele andmetele tuginemata.

  • Aha-hetk: Tugevdusõppe ilu (modelli valgustumise hetk, kus see eraldab probleemile rohkem mõtlemisaega, õppides ümber hindama esialgne lähenemine)
  • Väljundi pikkus jätkub (mõtlemisaeg pikeneb)
  • Täpsus paraneb jätkuvalt (täpsuse arvutamiseks võetakse proovid 16 vastusest)
  • DeepSeek-R1: parandab veelgi mudeli jõudlust, kombineerides külmkäivitusandmeid ja iteratiivset tugevdavat õppimise peenhäälestust, OpenAI-01-1217-ga võrreldava taseme saavutamine erinevate ülesannete puhul.
  • Teadmiste destilleerimine: Kasutades õpetajamudelina DeepSeek-R1, loodi 800 000 koolitusnäidised ja mitu väikest tihedat mudelit viimistleti. Tulemused näitavad, et see destilleerimismeetod võib märkimisväärselt parandada järelduste tegemise võimet väikesed mudelid.

Piirang

  • Piirang 1: DeepSeek-R1 üldist võimekust tuleb parandada. DeepSeek-R1 on endiselt madalam kui DeepSeek-V3 sellistes ülesannetes nagu funktsioonikutsed, mitme pöördega dialoog, keerulised rollimängud ja JSON-väljund.
  • Piirang 2: keele segamise probleem. DeepSeek-R1 võib mitte-hiina- ja mitte-ingliskeelsete päringute töötlemisel ilmneda keele segamise probleemiga, näiteks inglise keeles arutledes ja vastates.
  • Piirang 3: kiire tundlikkus. DeepSeek-R1 on tundlik küsitavate sõnade suhtes ja mõne võttega viipamine vähendab selle jõudlust.
  • Piirang 4: Piiratud rakendus tarkvaratehnoloogia ülesannetele. Pika hindamisaja tõttu ei ole laiaulatuslikku tugevdamisõpet tarkvaratehniliste ülesannete jaoks täielikult rakendatud ja DeepSeek-R1 on tarkvaratehnika võrdlusnäitajates võrreldes DeepSeek-V3-ga piiratud.

Sarnased postitused

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga