Tänään jaamme DeepSeek R1, Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla: LLM:n päättelykyvyn kannustaminen vahvistusoppimisen avulla.
Tämä artikkeli esittelee DeepSeek:n ensimmäisen sukupolven päättelymalleja, DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero malli opetettiin läpi laajamittainen vahvistusoppiminen (RL) ilman valvottua hienosäätöä (SFT) ensimmäisenä vaiheena, joka osoittaa RL:n potentiaalin ja ylivertaiset päättelykyvyt se tuo. Vahvistusoppimisen kautta, DeepSeek-R1-Zero syntyi luonnollisesti monilla tehokkailla ja mielenkiintoisilla päättelytavoilla. Optimoidakseen edelleen joitakin R1-Zeron ongelmia (kieliset sekaannukset, parannettu yleistyskyky) he julkaisivat DeepSeek-R1, joka yhdistää monivaiheisen harjoittelun ja kylmäkäynnistystietojen hienosäädön ennen vahvistusoppimista. DeepSeek-R1 saavutti vertailukelpoisen suorituskyvyn päättelytehtävässä OpenAI-01-1217:llä. Tukeakseen tutkimusyhteisöä heillä on avoimen lähdekoodin DeepSeek-R1-Zero, DeepSeek-R1 ja kuusi tiheää mallia (1.5B, 7B, 8B, 14B, 32B, 70B) tislattuna DeepSeek-R1:stä, jotka perustuvat Qweniin ja Llamaan.
Menetelmän ominaisuudet on tiivistetty seuraavasti:
- Vahvistusoppimista sovelletaan suoraan perusmalliin, luottamatta valvottuun hienosäätöön (SFT) ensimmäisenä vaiheena.
- DeepSeek-R1-kehitysprosessi otetaan käyttöön, mikä yhdistää kaksi vahvistusoppimisvaihetta ja kaksi valvottua hienosäätövaihetta luomaan pohjan mallin päättely- ja ei-päättelykyvylle.
- Pienten mallien suorituskykyä päättelytehtävissä parannetaan siirtämällä suurten mallien päättelykuvioita pieniin malleihin tislaustekniikat.
Yleiskatsaus
- Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM-yrityksissä vahvistusoppimisen avulla
- Tekijät: DeepSeek-AI
- Github: deepseek R1
Motivaatio
- Nykyiset suuret kielimallit (LLM) ovat edistyneet merkittävästi päättelytehtävissä, mutta kohtaavat edelleen haasteita.
- Puhtaan potentiaali Vahvistusoppimista (RL) LLM:n päättelykyvyn parantamisessa ei ole täysin tutkittu, varsinkin ilman, että turvaudutaan valvottuihin tietoihin.
- RL:n kautta koulutetut mallit, kuten DeepSeek-R1-Zero, on ongelmia luettavuuden ja kielten sekoittumisen kanssa (esim. kiinan ja englannin puhuminen sekoitettuna), ja niitä on parannettava käyttäjäystävällisyyden parantamiseksi.
menetelmät

DeepSeek-R1-Zero: Käyttää DeepSeek-V3-Basea perusmallina ja GRPO (Group Relative Policy Optimization) oppimisen vahvistajana puitteet, ilman valvottua dataa mallin suorituskyvyn parantamiseksi päättelyssä.
DeepSeek-R1:
- Kylmäkäynnistys: Kerää pienen määrän korkealaatuista pitkiä CoT (Chain-of-thought) -tietoja ja hienosäätää DeepSeek-V3-Perusmalli vahvistavan oppimisen ensimmäisenä toimijana.
- Päättelyyn suuntautunut vahvistusoppiminen: Sama Vahvistusoppimisharjoitusprosessia DeepSeek-R1-Zeroa sovelletaan, mutta keskittyen mallin päättelykykyjen parantamiseen sellaisilla aloilla kuin koodaus, matematiikka, tiede ja looginen päättely. Kielellisen johdonmukaisuuden palkkiot otetaan käyttöön vähentämään kielellisen sekoittumisen ongelmaa, jota esiintyy CoT:ssä.
- Hylkäämisen näytteenotto ja valvottu hienosäätö: Käyttää vahvistusoppimisen konvergoitua tarkistuspistettä kerätä valvotun hienosäädön (SFT) tietoja myöhempää koulutusta varten.
- Vahvistusoppiminen kaikille skenaarioille: Toteuttaa toisen tason vahvistusoppimisvaiheen, jonka tavoitteena on parantaa mallin hyödyllisyys ja vaarattomuus samalla kun optimoidaan sen päättelykyky.
- Tiedon tislaus: Hienosäätää avoimen lähdekoodin mallit Qwen ja Llama suoraan käyttämällä DeepSeek-R1:n kuratoimia 800 000 näytteitä.
Yksityiskohtaiset menetelmät ja menettelyt:

DeepSeek-R1-Zero: Vahvistusoppiminen perusmalleille
- Vahvistusoppimisalgoritmi: Käyttää Group Relative Policy Optimization (GRPO) -algoritmia, joka ei vaadi a kriitikko malli, arvioi lähtötilanteen ryhmäpisteiden mukaan ja vähentää koulutuskustannuksia.
- Palkintomallinnus: Käyttää a sääntöihin perustuva palkitsemisjärjestelmä, mukaan lukien

- tarkkuuspalkinto: Arvioi, onko vastaus oikea, kuten lopputuloksen oikeellisuus matemaattisen ongelman vastaus, kääntäjän palaute koodiongelmista.
- Palkintomuoto: Kannustaa mallia siihen aseta ajatteluprosessi väliin
ja
tunnisteet.
Koulutusmalli: Malli, joka sisältää ja
tunnisteet on suunniteltu ohjaa malli antamaan ensin ajatteluprosessi ja sitten lopullinen vastaus.

- Itsekehitysprosessi: DeepSeek-R1-Zero osoitettu itsekehittäviä ominaisuuksia koulutuksen aikana ja pystyi itsenäisesti oppimaan monimutkaisempia päättelystrategioita, kuten pohdintaa ja useiden ongelmanratkaisupolkujen tutkimista.

DeepSeek-R1: Vahvistusoppiminen yhdistettynä kylmäkäynnistykseen

- Kylmäkäynnistys: Ratkaisemaan DeepSeek-R1-Zero's luettavuusongelma, DeepSeek-R1 kerää ensin pienen määrän korkealaatuisia CoT-tietoja ja hienosäätää DeepSeek-V3-Base-mallin toimia vahvistusoppimisen ensimmäisenä toimijana. Kylmäkäynnistystiedot sisältää yhteenvetotunnisteita ja epäystävällisiä vastauksia suodatetaan pois.
- Menetelmä: 1) Valitse korkealaatuiset Long COT -tiedot. 2) Lisää ja tunnisteet.
- Edut: 1) Optimoitu luettavuus (ratkaise R1-Zero monikielinen ongelma tai markdown-muotoongelma). 2) Huolellisesti valitut ihmisten suosittelemat tiedot voivat edelleen parantaa suorituskykyä R1-Zerolla.
- Kysymys: Miksi luettavuusongelma ratkaistaan? Eikö ole mahdollista tehdä paremmin ilman sen ratkaisemista (esim. lyhentämällä lähdön pituutta ja päättelemällä tehokkaammin)?
- Päättelyyn suuntautunut RL: Kylmäkäynnistysmalliin perustuva vahvistusoppimisprosessi on samanlainen kuin Sovelletaan DeepSeek-R1-Zeroa, joka keskittyy parantamaan mallin kykyä esimerkiksi koodauksessa, matematiikassa, tieteellisessä ja loogisessa päättelyssä.. Sekakielien ongelman ratkaisemiseksi (monikielinen päättely), kielen johdonmukaisuus palkitsee esitellään.
- Kysymys: Miten tieteellisiä ja loogisia päättelytehtäviä ja aineistoja koulutetaan?
- Hylkäysnäytteenotto ja SFT: Päätelmäohjatun vahvistusoppimisen konvergoitumisen jälkeen saatua tarkistuspistettä käytetään hylkäysnäytteenotto uuden SFT-datan luomiseksi, joka yhdistetään DeepSeek-V3:n tietoihin parantaakseen mallin kykyjä kirjoittaa, roolipeleissä ja yleisissä tehtävissä.
- Tarkoitus:
- Tämä vaihe aloitetaan sen jälkeen, kun päätelmäorientoitunut vahvistusoppimisprosessi (RL) konvergoi.
- Päätavoitteena on kerätä valvottuja hienosäätötietoja (SFT). käytettäväksi seuraavilla harjoituskierroksilla.
- Toisin kuin alkuperäiset kylmäkäynnistystiedot, jotka keskittyvät vain päättelyyn, tämän vaiheen tavoitteena on laajentaa mallin ominaisuuksia kattaa kirjoittamisen, roolileikit ja muut yleiskäyttöiset tehtävät, ei vain päättelyä.
- Tiedonkeruu – Päätelmätiedot:
- Menetelmä: Käytä johtopäätössuuntautuneesta RL-vaiheesta saatuja tarkistuspisteitä päättelyratojen luomiseen hylkäysnäytteistyksellä.
- Tietojoukon laajennus: Toisin kuin edellisessä RL-vaiheessa, jossa käytettiin vain sääntöpohjaista palkintodataa, ei-sääntöpohjaiset palkkiotiedot esitellään tässä. Joissakin tapauksissa vasteen määrittämiseen käytetään generatiivista palkkiomallia (DeepSeek-V3).
- Tietojen suodatus: Laadun ja luettavuuden varmistamiseksi tuloste suodatetaan ja poistetaan:
- sekakieliä sisältävät ajatusketjut
- pitkiä kappaleita
- koodilohkot
- Näytteenotto ja valinta: Jokaista kehotetta kohti luotiin useita vastauksia. Vain "oikea" vastaus säilytettiin tietojoukolle.
- Tietojoukon koko: suunnilleen 600 000 päätelmiin liittyvää koulutusnäytettä kerättiin tällä tavalla.
- Tiedonkeruu – ei-päätelmätiedot:
- Kattavuus: Kirjoittaminen, asiallisiin kysymyksiin vastaaminen (QA), itsetuntemus ja kääntäminen.
- Lehdessä mainitaan käyttö DeepSeek-V3 käsittelee ja käyttää uudelleen osaa DeepSeek-V3 SFT-tietojoukosta hoitamaan nämä ei-päätelmät tehtävät. Noin 200 000 johtopäätöksestä riippumatonta näytettä kerättiin. (Huomaa: Ei-johtopäätöstietojen keräämisen yksityiskohdat on kuvattu tarkemmin kohdassa 2.3.4)
- Kerättyjen tietojen käyttö:
- Kerättyjä päättely- ja perustelemattomia tietoja (yhteensä noin 800 000 näytettä – 600 000 päättelyn näytettä + 200 000 perustelematonta näytettä) käytettiin sitten hienosäätää DeepSeek-V3-Base-mallia kahdelle aikakaudelle. Tätä hienosäädettyä mallia käytettiin sitten lopullisessa RL-vaiheessa, joka kuvattiin kohdassa 2.3.4.
- Yhteenveto Tämä vaihe käyttää päättelykykyä oppinut RL:n kautta luomaan monipuolisen ja laadukkaan SFT-tietojoukon. Tämä tietojoukko vahvistaa päättelykykyä ja laajentaa myös yleisiä ominaisuuksia koulutuksen malli lopullisessa yhdenmukaistamis- ja parannusvaiheessa.
- Tarkoitus:
- Vahvistusoppiminen kaikissa skenaarioissa: Ihmisten mieltymysten yhdenmukaistamiseksi toteutetaan toinen vahvistusoppimisen vaihe mallin hyödyllisyyden ja vaarattomuuden parantamiseksi.
- Päätelmädata: esim. matematiikka, koodi, looginen päättely tai sääntöpohjamenetelmillä valvottu.
- Yleistä tietoa: palkkiomalleja käytetään edelleen tarjoamaan etusijatietoja monimutkaisissa ja hienovaraisissa skenaarioissa. Arvioidaan myös mallit, jotka on koulutettu parittaisella tiedolla.
- Hyödyllisyys: keskity vain lopullisiin yhteenvetotuloksiin, mikä vähentää häiriötä päättelyprosessissa.
- Vaarattomuus: Valvo koko vastausta riskien vähentämiseksi.
Mallitislaus (tislaus):
- Tehokkamman pienen päättelymallin saamiseksi paperi tislaa DeepSeek-R1:n päättelykyvyn Qwen- ja Llama-sarjan avoimen lähdekoodin malleihin. Tislausprosessi käyttää vain valvottua hienosäätöä (SFT) eikä käytä vahvistusoppimisvaihetta.
Päätelmä
DeepSeek-R1-Zero: Osoittaa potentiaalin puhdasta vahvistusta oppimista motivoivassa LLM-päätelmäkyvyssä ja voi saavuttaa vahvan suorituskyvyn turvautumatta valvottuihin tietoihin.


- Aha-hetki: Vahvistusoppimisen kauneus (mallin valaistumisen hetki, missä se varaa enemmän ajatteluaikaa ongelmalle oppimalla arvioimaan uudelleen alkuperäinen lähestymistapa)
- Lähtöpituus kasvaa edelleen (ajatteluaika pitenee edelleen)
- Tarkkuus paranee edelleen (otantaan 16 vastausta tarkkuuden laskemiseksi)

- DeepSeek-R1: Parantaa edelleen mallin suorituskykyä yhdistämällä kylmäkäynnistystiedot ja iteratiivisen vahvistuksen oppimisen hienosäädön, OpenAI-01-1217:ään verrattavan tason saavuttaminen erilaisissa tehtävissä.

- Tiedon tislaus: Käyttämällä DeepSeek-R1:tä opettajamallina luotiin 800 000 koulutusnäytettä ja useita pieniä, tiheitä malleja hienosäädettiin. Tulokset osoittavat, että tämä tislausmenetelmä voi merkittävästi parantaa päättelykykyä pienet mallit.
Rajoitus
- Rajoitus 1: DeepSeek-R1:n yleistä kykyä on parannettava. DeepSeek-R1 on edelleen huonompi kuin DeepSeek-V3 tehtävissä, kuten toimintokutsuissa, monikierroksisessa dialogissa, monimutkaisissa roolipeleissä ja JSON-ulostulossa.
- Rajoitus 2: Kielten sekoittumisongelma. DeepSeek-R1 saattaa kohdata kielten sekoittumisongelman käsitellessään ei-kiinalaisia ja ei-englanninkielisiä kyselyitä, esimerkiksi pohdittaessa ja vastaamalla englanniksi.
- Rajoitus 3: Nopea herkkyys. DeepSeek-R1 on herkkä kehotteille, ja muutaman laukauksen kehotus heikentää sen suorituskykyä.
- Rajoitus 4: Rajoitettu sovellus ohjelmistosuunnittelutehtäviin. Pitkästä arviointiajasta johtuen laajamittaista vahvistusoppimista ei ole täysin sovellettu ohjelmistosuunnittelutehtäviin, ja DeepSeek-R1:llä on rajoitettu parannus verrattuna DeepSeek-V3:een ohjelmistosuunnittelun vertailuarvoissa.