Tänään jaamme DeepSeek R1, Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla: LLM:n päättelykyvyn kannustaminen vahvistusoppimisen avulla.

Tämä artikkeli esittelee DeepSeek:n ensimmäisen sukupolven päättelymalleja, DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero malli opetettiin läpi laajamittainen vahvistusoppiminen (RL) ilman valvottua hienosäätöä (SFT) ensimmäisenä vaiheena, joka osoittaa RL:n potentiaalin ja ylivertaiset päättelykyvyt se tuo. Vahvistusoppimisen kautta, DeepSeek-R1-Zero syntyi luonnollisesti monilla tehokkailla ja mielenkiintoisilla päättelytavoilla. Optimoidakseen edelleen joitakin R1-Zeron ongelmia (kieliset sekaannukset, parannettu yleistyskyky) he julkaisivat DeepSeek-R1, joka yhdistää monivaiheisen harjoittelun ja kylmäkäynnistystietojen hienosäädön ennen vahvistusoppimista. DeepSeek-R1 saavutti vertailukelpoisen suorituskyvyn päättelytehtävässä OpenAI-01-1217:llä. Tukeakseen tutkimusyhteisöä heillä on avoimen lähdekoodin DeepSeek-R1-Zero, DeepSeek-R1 ja kuusi tiheää mallia (1.5B, 7B, 8B, 14B, 32B, 70B) tislattuna DeepSeek-R1:stä, jotka perustuvat Qweniin ja Llamaan.

Menetelmän ominaisuudet on tiivistetty seuraavasti:

  1. Vahvistusoppimista sovelletaan suoraan perusmalliin, luottamatta valvottuun hienosäätöön (SFT) ensimmäisenä vaiheena.
  2. DeepSeek-R1-kehitysprosessi otetaan käyttöön, mikä yhdistää kaksi vahvistusoppimisvaihetta ja kaksi valvottua hienosäätövaihetta luomaan pohjan mallin päättely- ja ei-päättelykyvylle.
  3. Pienten mallien suorituskykyä päättelytehtävissä parannetaan siirtämällä suurten mallien päättelykuvioita pieniin malleihin tislaustekniikat.

Yleiskatsaus

Motivaatio

  • Nykyiset suuret kielimallit (LLM) ovat edistyneet merkittävästi päättelytehtävissä, mutta kohtaavat edelleen haasteita.
  • Puhtaan potentiaali Vahvistusoppimista (RL) LLM:n päättelykyvyn parantamisessa ei ole täysin tutkittu, varsinkin ilman, että turvaudutaan valvottuihin tietoihin.
  • RL:n kautta koulutetut mallit, kuten DeepSeek-R1-Zero, on ongelmia luettavuuden ja kielten sekoittumisen kanssa (esim. kiinan ja englannin puhuminen sekoitettuna), ja niitä on parannettava käyttäjäystävällisyyden parantamiseksi.

menetelmät

DeepSeek-R1-Zero: Käyttää DeepSeek-V3-Basea perusmallina ja GRPO (Group Relative Policy Optimization) oppimisen vahvistajana puitteet, ilman valvottua dataa mallin suorituskyvyn parantamiseksi päättelyssä.

DeepSeek-R1:

  • Kylmäkäynnistys: Kerää pienen määrän korkealaatuista pitkiä CoT (Chain-of-thought) -tietoja ja hienosäätää DeepSeek-V3-Perusmalli vahvistavan oppimisen ensimmäisenä toimijana.
  • Päättelyyn suuntautunut vahvistusoppiminen: Sama Vahvistusoppimisharjoitusprosessia DeepSeek-R1-Zeroa sovelletaan, mutta keskittyen mallin päättelykykyjen parantamiseen sellaisilla aloilla kuin koodaus, matematiikka, tiede ja looginen päättely. Kielellisen johdonmukaisuuden palkkiot otetaan käyttöön vähentämään kielellisen sekoittumisen ongelmaa, jota esiintyy CoT:ssä.
  • Hylkäämisen näytteenotto ja valvottu hienosäätö: Käyttää vahvistusoppimisen konvergoitua tarkistuspistettä kerätä valvotun hienosäädön (SFT) tietoja myöhempää koulutusta varten.
  • Vahvistusoppiminen kaikille skenaarioille: Toteuttaa toisen tason vahvistusoppimisvaiheen, jonka tavoitteena on parantaa mallin hyödyllisyys ja vaarattomuus samalla kun optimoidaan sen päättelykyky.
  • Tiedon tislaus: Hienosäätää avoimen lähdekoodin mallit Qwen ja Llama suoraan käyttämällä DeepSeek-R1:n kuratoimia 800 000 näytteitä.

Yksityiskohtaiset menetelmät ja menettelyt:

DeepSeek-R1-Zero: Vahvistusoppiminen perusmalleille

  • Vahvistusoppimisalgoritmi: Käyttää Group Relative Policy Optimization (GRPO) -algoritmia, joka ei vaadi a kriitikko malli, arvioi lähtötilanteen ryhmäpisteiden mukaan ja vähentää koulutuskustannuksia.
  • Palkintomallinnus: Käyttää a sääntöihin perustuva palkitsemisjärjestelmä, mukaan lukien
  • tarkkuuspalkinto: Arvioi, onko vastaus oikea, kuten lopputuloksen oikeellisuus matemaattisen ongelman vastaus, kääntäjän palaute koodiongelmista.
  • Palkintomuoto: Kannustaa mallia siihen aseta ajatteluprosessi väliin ja tunnisteet.

Koulutusmalli: Malli, joka sisältää ja tunnisteet on suunniteltu ohjaa malli antamaan ensin ajatteluprosessi ja sitten lopullinen vastaus.

  • Itsekehitysprosessi: DeepSeek-R1-Zero osoitettu itsekehittäviä ominaisuuksia koulutuksen aikana ja pystyi itsenäisesti oppimaan monimutkaisempia päättelystrategioita, kuten pohdintaa ja useiden ongelmanratkaisupolkujen tutkimista.

DeepSeek-R1: Vahvistusoppiminen yhdistettynä kylmäkäynnistykseen

  • Kylmäkäynnistys: Ratkaisemaan DeepSeek-R1-Zero's luettavuusongelma, DeepSeek-R1 kerää ensin pienen määrän korkealaatuisia CoT-tietoja ja hienosäätää DeepSeek-V3-Base-mallin toimia vahvistusoppimisen ensimmäisenä toimijana. Kylmäkäynnistystiedot sisältää yhteenvetotunnisteita ja epäystävällisiä vastauksia suodatetaan pois.
    • Menetelmä: 1) Valitse korkealaatuiset Long COT -tiedot. 2) Lisää ja tunnisteet.
    • Edut: 1) Optimoitu luettavuus (ratkaise R1-Zero monikielinen ongelma tai markdown-muotoongelma). 2) Huolellisesti valitut ihmisten suosittelemat tiedot voivat edelleen parantaa suorituskykyä R1-Zerolla.
    • Kysymys: Miksi luettavuusongelma ratkaistaan? Eikö ole mahdollista tehdä paremmin ilman sen ratkaisemista (esim. lyhentämällä lähdön pituutta ja päättelemällä tehokkaammin)?
  • Päättelyyn suuntautunut RL: Kylmäkäynnistysmalliin perustuva vahvistusoppimisprosessi on samanlainen kuin Sovelletaan DeepSeek-R1-Zeroa, joka keskittyy parantamaan mallin kykyä esimerkiksi koodauksessa, matematiikassa, tieteellisessä ja loogisessa päättelyssä.. Sekakielien ongelman ratkaisemiseksi (monikielinen päättely), kielen johdonmukaisuus palkitsee esitellään.
    • Kysymys: Miten tieteellisiä ja loogisia päättelytehtäviä ja aineistoja koulutetaan?
  • Hylkäysnäytteenotto ja SFT: Päätelmäohjatun vahvistusoppimisen konvergoitumisen jälkeen saatua tarkistuspistettä käytetään hylkäysnäytteenotto uuden SFT-datan luomiseksi, joka yhdistetään DeepSeek-V3:n tietoihin parantaakseen mallin kykyjä kirjoittaa, roolipeleissä ja yleisissä tehtävissä.
    • Tarkoitus:
      • Tämä vaihe aloitetaan sen jälkeen, kun päätelmäorientoitunut vahvistusoppimisprosessi (RL) konvergoi.
      • Päätavoitteena on kerätä valvottuja hienosäätötietoja (SFT). käytettäväksi seuraavilla harjoituskierroksilla.
      • Toisin kuin alkuperäiset kylmäkäynnistystiedot, jotka keskittyvät vain päättelyyn, tämän vaiheen tavoitteena on laajentaa mallin ominaisuuksia kattaa kirjoittamisen, roolileikit ja muut yleiskäyttöiset tehtävät, ei vain päättelyä.
    • Tiedonkeruu – Päätelmätiedot:
      • Menetelmä: Käytä johtopäätössuuntautuneesta RL-vaiheesta saatuja tarkistuspisteitä päättelyratojen luomiseen hylkäysnäytteistyksellä.
      • Tietojoukon laajennus: Toisin kuin edellisessä RL-vaiheessa, jossa käytettiin vain sääntöpohjaista palkintodataa, ei-sääntöpohjaiset palkkiotiedot esitellään tässä. Joissakin tapauksissa vasteen määrittämiseen käytetään generatiivista palkkiomallia (DeepSeek-V3).
      • Tietojen suodatus: Laadun ja luettavuuden varmistamiseksi tuloste suodatetaan ja poistetaan:
        • sekakieliä sisältävät ajatusketjut
        • pitkiä kappaleita
        • koodilohkot
      • Näytteenotto ja valinta: Jokaista kehotetta kohti luotiin useita vastauksia. Vain "oikea" vastaus säilytettiin tietojoukolle.
      • Tietojoukon koko: suunnilleen 600 000 päätelmiin liittyvää koulutusnäytettä kerättiin tällä tavalla.
    • Tiedonkeruu – ei-päätelmätiedot:
      • Kattavuus: Kirjoittaminen, asiallisiin kysymyksiin vastaaminen (QA), itsetuntemus ja kääntäminen.
      • Lehdessä mainitaan käyttö DeepSeek-V3 käsittelee ja käyttää uudelleen osaa DeepSeek-V3 SFT-tietojoukosta hoitamaan nämä ei-päätelmät tehtävät. Noin 200 000 johtopäätöksestä riippumatonta näytettä kerättiin. (Huomaa: Ei-johtopäätöstietojen keräämisen yksityiskohdat on kuvattu tarkemmin kohdassa 2.3.4)
    • Kerättyjen tietojen käyttö:
      • Kerättyjä päättely- ja perustelemattomia tietoja (yhteensä noin 800 000 näytettä – 600 000 päättelyn näytettä + 200 000 perustelematonta näytettä) käytettiin sitten hienosäätää DeepSeek-V3-Base-mallia kahdelle aikakaudelle. Tätä hienosäädettyä mallia käytettiin sitten lopullisessa RL-vaiheessa, joka kuvattiin kohdassa 2.3.4.
    • Yhteenveto Tämä vaihe käyttää päättelykykyä oppinut RL:n kautta luomaan monipuolisen ja laadukkaan SFT-tietojoukon. Tämä tietojoukko vahvistaa päättelykykyä ja laajentaa myös yleisiä ominaisuuksia koulutuksen malli lopullisessa yhdenmukaistamis- ja parannusvaiheessa.
  • Vahvistusoppiminen kaikissa skenaarioissa: Ihmisten mieltymysten yhdenmukaistamiseksi toteutetaan toinen vahvistusoppimisen vaihe mallin hyödyllisyyden ja vaarattomuuden parantamiseksi.
    • Päätelmädata: esim. matematiikka, koodi, looginen päättely tai sääntöpohjamenetelmillä valvottu.
    • Yleistä tietoa: palkkiomalleja käytetään edelleen tarjoamaan etusijatietoja monimutkaisissa ja hienovaraisissa skenaarioissa. Arvioidaan myös mallit, jotka on koulutettu parittaisella tiedolla.
    • Hyödyllisyys: keskity vain lopullisiin yhteenvetotuloksiin, mikä vähentää häiriötä päättelyprosessissa.
    • Vaarattomuus: Valvo koko vastausta riskien vähentämiseksi.

Mallitislaus (tislaus):

  • Tehokkamman pienen päättelymallin saamiseksi paperi tislaa DeepSeek-R1:n päättelykyvyn Qwen- ja Llama-sarjan avoimen lähdekoodin malleihin. Tislausprosessi käyttää vain valvottua hienosäätöä (SFT) eikä käytä vahvistusoppimisvaihetta.

Päätelmä

DeepSeek-R1-Zero: Osoittaa potentiaalin puhdasta vahvistusta oppimista motivoivassa LLM-päätelmäkyvyssä ja voi saavuttaa vahvan suorituskyvyn turvautumatta valvottuihin tietoihin.

  • Aha-hetki: Vahvistusoppimisen kauneus (mallin valaistumisen hetki, missä se varaa enemmän ajatteluaikaa ongelmalle oppimalla arvioimaan uudelleen alkuperäinen lähestymistapa)
  • Lähtöpituus kasvaa edelleen (ajatteluaika pitenee edelleen)
  • Tarkkuus paranee edelleen (otantaan 16 vastausta tarkkuuden laskemiseksi)
  • DeepSeek-R1: Parantaa edelleen mallin suorituskykyä yhdistämällä kylmäkäynnistystiedot ja iteratiivisen vahvistuksen oppimisen hienosäädön, OpenAI-01-1217:ään verrattavan tason saavuttaminen erilaisissa tehtävissä.
  • Tiedon tislaus: Käyttämällä DeepSeek-R1:tä opettajamallina luotiin 800 000 koulutusnäytettä ja useita pieniä, tiheitä malleja hienosäädettiin. Tulokset osoittavat, että tämä tislausmenetelmä voi merkittävästi parantaa päättelykykyä pienet mallit.

Rajoitus

  • Rajoitus 1: DeepSeek-R1:n yleistä kykyä on parannettava. DeepSeek-R1 on edelleen huonompi kuin DeepSeek-V3 tehtävissä, kuten toimintokutsuissa, monikierroksisessa dialogissa, monimutkaisissa roolipeleissä ja JSON-ulostulossa.
  • Rajoitus 2: Kielten sekoittumisongelma. DeepSeek-R1 saattaa kohdata kielten sekoittumisongelman käsitellessään ei-kiinalaisia ja ei-englanninkielisiä kyselyitä, esimerkiksi pohdittaessa ja vastaamalla englanniksi.
  • Rajoitus 3: Nopea herkkyys. DeepSeek-R1 on herkkä kehotteille, ja muutaman laukauksen kehotus heikentää sen suorituskykyä.
  • Rajoitus 4: Rajoitettu sovellus ohjelmistosuunnittelutehtäviin. Pitkästä arviointiajasta johtuen laajamittaista vahvistusoppimista ei ole täysin sovellettu ohjelmistosuunnittelutehtäviin, ja DeepSeek-R1:llä on rajoitettu parannus verrattuna DeepSeek-V3:een ohjelmistosuunnittelun vertailuarvoissa.

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *