DeepSeek-R1-tekniikka paljastettiin: paperin ydinperiaatteet on purettu ja avain läpimurtomallin suorituskykyyn paljastuu

Tänään jaamme DeepSeek R1, Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla: LLM:n päättelykyvyn kannustaminen vahvistusoppimisen avulla.

Tämä artikkeli esittelee DeepSeek:n ensimmäisen sukupolven päättelymalleja, DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero malli opetettiin läpi laajamittainen vahvistusoppiminen (RL) ilman valvottua hienosäätöä (SFT) ensimmäisenä vaiheena, joka osoittaa RL:n potentiaalin ja ylivertaiset päättelykyvyt se tuo. Vahvistusoppimisen kautta, DeepSeek-R1-Zero syntyi luonnollisesti monilla tehokkailla ja mielenkiintoisilla päättelytavoilla. Optimoidakseen edelleen joitakin R1-Zeron ongelmia (kieliset sekaannukset, parannettu yleistyskyky) he julkaisivat DeepSeek-R1, joka yhdistää monivaiheisen harjoittelun ja kylmäkäynnistystietojen hienosäädön ennen vahvistusoppimista. DeepSeek-R1 saavutti vertailukelpoisen suorituskyvyn päättelytehtävässä OpenAI-01-1217:llä. Tukeakseen tutkimusyhteisöä heillä on avoimen lähdekoodin DeepSeek-R1-Zero, DeepSeek-R1 ja kuusi tiheää mallia (1.5B, 7B, 8B, 14B, 32B, 70B) tislattuna DeepSeek-R1:stä, jotka perustuvat Qweniin ja Llamaan.

Menetelmän ominaisuudet on tiivistetty seuraavasti:

Vahvistusoppimista sovelletaan suoraan perusmalliin, luottamatta valvottuun hienosäätöön (SFT) ensimmäisenä vaiheena.
DeepSeek-R1-kehitysprosessi otetaan käyttöön, mikä yhdistää kaksi vahvistusoppimisvaihetta ja kaksi valvottua hienosäätövaihetta luomaan pohjan mallin päättely- ja ei-päättelykyvylle.
Pienten mallien suorituskykyä päättelytehtävissä parannetaan siirtämällä suurten mallien päättelykuvioita pieniin malleihin tislaustekniikat.

Sisällysluettelo

Yleiskatsaus

Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM-yrityksissä vahvistusoppimisen avulla
Tekijät: DeepSeek-AI
Github: deepseek R1

Motivaatio

Nykyiset suuret kielimallit (LLM) ovat edistyneet merkittävästi päättelytehtävissä, mutta kohtaavat edelleen haasteita.
Puhtaan potentiaali Vahvistusoppimista (RL) LLM:n päättelykyvyn parantamisessa ei ole täysin tutkittu, varsinkin ilman, että turvaudutaan valvottuihin tietoihin.
RL:n kautta koulutetut mallit, kuten DeepSeek-R1-Zero, on ongelmia luettavuuden ja kielten sekoittumisen kanssa (esim. kiinan ja englannin puhuminen sekoitettuna), ja niitä on parannettava käyttäjäystävällisyyden parantamiseksi.

menetelmät

DeepSeek-R1-Zero: Käyttää DeepSeek-V3-Basea perusmallina ja GRPO (Group Relative Policy Optimization) oppimisen vahvistajana puitteet, ilman valvottua dataa mallin suorituskyvyn parantamiseksi päättelyssä.

DeepSeek-R1:

Kylmäkäynnistys: Kerää pienen määrän korkealaatuista pitkiä CoT (Chain-of-thought) -tietoja ja hienosäätää DeepSeek-V3-Perusmalli vahvistavan oppimisen ensimmäisenä toimijana.
Päättelyyn suuntautunut vahvistusoppiminen: Sama Vahvistusoppimisharjoitusprosessia DeepSeek-R1-Zeroa sovelletaan, mutta keskittyen mallin päättelykykyjen parantamiseen sellaisilla aloilla kuin koodaus, matematiikka, tiede ja looginen päättely. Kielellisen johdonmukaisuuden palkkiot otetaan käyttöön vähentämään kielellisen sekoittumisen ongelmaa, jota esiintyy CoT:ssä.
Hylkäämisen näytteenotto ja valvottu hienosäätö: Käyttää vahvistusoppimisen konvergoitua tarkistuspistettä kerätä valvotun hienosäädön (SFT) tietoja myöhempää koulutusta varten.
Vahvistusoppiminen kaikille skenaarioille: Toteuttaa toisen tason vahvistusoppimisvaiheen, jonka tavoitteena on parantaa mallin hyödyllisyys ja vaarattomuus samalla kun optimoidaan sen päättelykyky.
Tiedon tislaus: Hienosäätää avoimen lähdekoodin mallit Qwen ja Llama suoraan käyttämällä DeepSeek-R1:n kuratoimia 800 000 näytteitä.

Yksityiskohtaiset menetelmät ja menettelyt:

DeepSeek-R1-Zero: Vahvistusoppiminen perusmalleille

Vahvistusoppimisalgoritmi: Käyttää Group Relative Policy Optimization (GRPO) -algoritmia, joka ei vaadi a kriitikko malli, arvioi lähtötilanteen ryhmäpisteiden mukaan ja vähentää koulutuskustannuksia.
Palkintomallinnus: Käyttää a sääntöihin perustuva palkitsemisjärjestelmä, mukaan lukien

tarkkuuspalkinto: Arvioi, onko vastaus oikea, kuten lopputuloksen oikeellisuus matemaattisen ongelman vastaus, kääntäjän palaute koodiongelmista.
Palkintomuoto: Kannustaa mallia siihen aseta ajatteluprosessi väliin ja tunnisteet.

Koulutusmalli: Malli, joka sisältää ja tunnisteet on suunniteltu ohjaa malli antamaan ensin ajatteluprosessi ja sitten lopullinen vastaus.

Itsekehitysprosessi: DeepSeek-R1-Zero osoitettu itsekehittäviä ominaisuuksia koulutuksen aikana ja pystyi itsenäisesti oppimaan monimutkaisempia päättelystrategioita, kuten pohdintaa ja useiden ongelmanratkaisupolkujen tutkimista.

DeepSeek-R1: Vahvistusoppiminen yhdistettynä kylmäkäynnistykseen

Kylmäkäynnistys: Ratkaisemaan DeepSeek-R1-Zero's luettavuusongelma, DeepSeek-R1 kerää ensin pienen määrän korkealaatuisia CoT-tietoja ja hienosäätää DeepSeek-V3-Base-mallin toimia vahvistusoppimisen ensimmäisenä toimijana. Kylmäkäynnistystiedot sisältää yhteenvetotunnisteita ja epäystävällisiä vastauksia suodatetaan pois.
- Menetelmä: 1) Valitse korkealaatuiset Long COT -tiedot. 2) Lisää ja tunnisteet.
- Edut: 1) Optimoitu luettavuus (ratkaise R1-Zero monikielinen ongelma tai markdown-muotoongelma). 2) Huolellisesti valitut ihmisten suosittelemat tiedot voivat edelleen parantaa suorituskykyä R1-Zerolla.
- Kysymys: Miksi luettavuusongelma ratkaistaan? Eikö ole mahdollista tehdä paremmin ilman sen ratkaisemista (esim. lyhentämällä lähdön pituutta ja päättelemällä tehokkaammin)?
Päättelyyn suuntautunut RL: Kylmäkäynnistysmalliin perustuva vahvistusoppimisprosessi on samanlainen kuin Sovelletaan DeepSeek-R1-Zeroa, joka keskittyy parantamaan mallin kykyä esimerkiksi koodauksessa, matematiikassa, tieteellisessä ja loogisessa päättelyssä.. Sekakielien ongelman ratkaisemiseksi (monikielinen päättely), kielen johdonmukaisuus palkitsee esitellään.
- Kysymys: Miten tieteellisiä ja loogisia päättelytehtäviä ja aineistoja koulutetaan?
Hylkäysnäytteenotto ja SFT: Päätelmäohjatun vahvistusoppimisen konvergoitumisen jälkeen saatua tarkistuspistettä käytetään hylkäysnäytteenotto uuden SFT-datan luomiseksi, joka yhdistetään DeepSeek-V3:n tietoihin parantaakseen mallin kykyjä kirjoittaa, roolipeleissä ja yleisissä tehtävissä.
- Tarkoitus:
  - Tämä vaihe aloitetaan sen jälkeen, kun päätelmäorientoitunut vahvistusoppimisprosessi (RL) konvergoi.
  - Päätavoitteena on kerätä valvottuja hienosäätötietoja (SFT). käytettäväksi seuraavilla harjoituskierroksilla.
  - Toisin kuin alkuperäiset kylmäkäynnistystiedot, jotka keskittyvät vain päättelyyn, tämän vaiheen tavoitteena on laajentaa mallin ominaisuuksia kattaa kirjoittamisen, roolileikit ja muut yleiskäyttöiset tehtävät, ei vain päättelyä.
- Tiedonkeruu – Päätelmätiedot:
  - Menetelmä: Käytä johtopäätössuuntautuneesta RL-vaiheesta saatuja tarkistuspisteitä päättelyratojen luomiseen hylkäysnäytteistyksellä.
  - Tietojoukon laajennus: Toisin kuin edellisessä RL-vaiheessa, jossa käytettiin vain sääntöpohjaista palkintodataa, ei-sääntöpohjaiset palkkiotiedot esitellään tässä. Joissakin tapauksissa vasteen määrittämiseen käytetään generatiivista palkkiomallia (DeepSeek-V3).
  - Tietojen suodatus: Laadun ja luettavuuden varmistamiseksi tuloste suodatetaan ja poistetaan:
    - sekakieliä sisältävät ajatusketjut
    - pitkiä kappaleita
    - koodilohkot
  - Näytteenotto ja valinta: Jokaista kehotetta kohti luotiin useita vastauksia. Vain "oikea" vastaus säilytettiin tietojoukolle.
  - Tietojoukon koko: suunnilleen 600 000 päätelmiin liittyvää koulutusnäytettä kerättiin tällä tavalla.
- Tiedonkeruu – ei-päätelmätiedot:
  - Kattavuus: Kirjoittaminen, asiallisiin kysymyksiin vastaaminen (QA), itsetuntemus ja kääntäminen.
  - Lehdessä mainitaan käyttö DeepSeek-V3 käsittelee ja käyttää uudelleen osaa DeepSeek-V3 SFT-tietojoukosta hoitamaan nämä ei-päätelmät tehtävät. Noin 200 000 johtopäätöksestä riippumatonta näytettä kerättiin. (Huomaa: Ei-johtopäätöstietojen keräämisen yksityiskohdat on kuvattu tarkemmin kohdassa 2.3.4)
- Kerättyjen tietojen käyttö:
  - Kerättyjä päättely- ja perustelemattomia tietoja (yhteensä noin 800 000 näytettä – 600 000 päättelyn näytettä + 200 000 perustelematonta näytettä) käytettiin sitten hienosäätää DeepSeek-V3-Base-mallia kahdelle aikakaudelle. Tätä hienosäädettyä mallia käytettiin sitten lopullisessa RL-vaiheessa, joka kuvattiin kohdassa 2.3.4.
- Yhteenveto Tämä vaihe käyttää päättelykykyä oppinut RL:n kautta luomaan monipuolisen ja laadukkaan SFT-tietojoukon. Tämä tietojoukko vahvistaa päättelykykyä ja laajentaa myös yleisiä ominaisuuksia koulutuksen malli lopullisessa yhdenmukaistamis- ja parannusvaiheessa.
Vahvistusoppiminen kaikissa skenaarioissa: Ihmisten mieltymysten yhdenmukaistamiseksi toteutetaan toinen vahvistusoppimisen vaihe mallin hyödyllisyyden ja vaarattomuuden parantamiseksi.
- Päätelmädata: esim. matematiikka, koodi, looginen päättely tai sääntöpohjamenetelmillä valvottu.
- Yleistä tietoa: palkkiomalleja käytetään edelleen tarjoamaan etusijatietoja monimutkaisissa ja hienovaraisissa skenaarioissa. Arvioidaan myös mallit, jotka on koulutettu parittaisella tiedolla.
- Hyödyllisyys: keskity vain lopullisiin yhteenvetotuloksiin, mikä vähentää häiriötä päättelyprosessissa.
- Vaarattomuus: Valvo koko vastausta riskien vähentämiseksi.

Mallitislaus (tislaus):

Tehokkamman pienen päättelymallin saamiseksi paperi tislaa DeepSeek-R1:n päättelykyvyn Qwen- ja Llama-sarjan avoimen lähdekoodin malleihin. Tislausprosessi käyttää vain valvottua hienosäätöä (SFT) eikä käytä vahvistusoppimisvaihetta.

Päätelmä

DeepSeek-R1-Zero: Osoittaa potentiaalin puhdasta vahvistusta oppimista motivoivassa LLM-päätelmäkyvyssä ja voi saavuttaa vahvan suorituskyvyn turvautumatta valvottuihin tietoihin.

Aha-hetki: Vahvistusoppimisen kauneus (mallin valaistumisen hetki, missä se varaa enemmän ajatteluaikaa ongelmalle oppimalla arvioimaan uudelleen alkuperäinen lähestymistapa)
Lähtöpituus kasvaa edelleen (ajatteluaika pitenee edelleen)
Tarkkuus paranee edelleen (otantaan 16 vastausta tarkkuuden laskemiseksi)

DeepSeek-R1: Parantaa edelleen mallin suorituskykyä yhdistämällä kylmäkäynnistystiedot ja iteratiivisen vahvistuksen oppimisen hienosäädön, OpenAI-01-1217:ään verrattavan tason saavuttaminen erilaisissa tehtävissä.

Tiedon tislaus: Käyttämällä DeepSeek-R1:tä opettajamallina luotiin 800 000 koulutusnäytettä ja useita pieniä, tiheitä malleja hienosäädettiin. Tulokset osoittavat, että tämä tislausmenetelmä voi merkittävästi parantaa päättelykykyä pienet mallit.

Rajoitus

Rajoitus 1: DeepSeek-R1:n yleistä kykyä on parannettava. DeepSeek-R1 on edelleen huonompi kuin DeepSeek-V3 tehtävissä, kuten toimintokutsuissa, monikierroksisessa dialogissa, monimutkaisissa roolipeleissä ja JSON-ulostulossa.
Rajoitus 2: Kielten sekoittumisongelma. DeepSeek-R1 saattaa kohdata kielten sekoittumisongelman käsitellessään ei-kiinalaisia ja ei-englanninkielisiä kyselyitä, esimerkiksi pohdittaessa ja vastaamalla englanniksi.
Rajoitus 3: Nopea herkkyys. DeepSeek-R1 on herkkä kehotteille, ja muutaman laukauksen kehotus heikentää sen suorituskykyä.
Rajoitus 4: Rajoitettu sovellus ohjelmistosuunnittelutehtäviin. Pitkästä arviointiajasta johtuen laajamittaista vahvistusoppimista ei ole täysin sovellettu ohjelmistosuunnittelutehtäviin, ja DeepSeek-R1:llä on rajoitettu parannus verrattuna DeepSeek-V3:een ohjelmistosuunnittelun vertailuarvoissa.

DeepSeek-R1-tekniikka paljastettiin: paperin perusperiaatteet murretaan ja avain läpimurtomallin suorituskykyyn paljastuu

Yleiskatsaus

Motivaatio

menetelmät

Päätelmä

Rajoitus

DeepSeek R1 tuli ensimmäiseksi luovan kirjoittamisen kokeessa, ja o3 mini oli jopa huonompi kuin o1 mini!

Googlen halpamalli, Gemini 2.0 -sarja, hyökkää: taistelu suurten mallien kustannustehokkuudesta kiihtyy.

Äärimmäisiä uutisia! DeepSeek-tutkija paljastaa verkossa: R1-koulutus kesti vain kahdesta kolmeen viikkoa, ja R1-nollan voimakas kehitys havaittiin kiinalaisen uudenvuoden loman aikana

Neljän parhaan mallin esittely! Arvostelu esittelee Deepseek R1:n tehon

Qwen2.5-max vs DeepSeek R1: syvällinen mallien vertailu: täydellinen analyysi sovellusskenaarioista

DeepSeek on julkaissut lähdekoodinsa, yksityiskohtaisen selvityksen FlashMLA:sta

Vastaa Peruuta vastaus

Yleiskatsaus

Motivaatio

menetelmät

Päätelmä

Rajoitus

Samankaltaisia viestejä

Vastaa Peruuta vastaus