Tänään haluaisin jakaa DeepSeek:n artikkelin, jonka otsikko on DeepSeekMath: Matemaattisen päättelyn rajojen työntäminen avoimissa kielimalleissa.

Tässä artikkelissa esitellään DeepSeekMath 7B, joka on esikoulutettu DeepSeek-Coder-Base-v1.5 7B:n perusteella kokoelma 120 M matematiikkaan liittyviä tunnuksia, luonnollista kieltä ja koodidataa.

Malli saavutti hämmästyttävän pistemäärän 51.7% kilpailutason MATH-vertailuissa ilman ulkopuolisten työkalupakkien ja äänestystekniikoiden luottamista, ja se lähestyi Gemini-Ultran ja GPT-4:n suorituskykytasoa.

DeepSeekMath 7B:n matemaattinen päättelykyky johtuu kahdesta avaintekijästä: Ensinnäkin huolellisesti suunniteltu tiedonvalintaputki, korkealaatuista matematiikkaa koskevaa dataa louhitaan iteratiivisesti julkisesti saatavilla olevista verkkotiedoista.

Toiseksi ryhmän suhteellinen politiikan optimointi (GRPO) on käyttöön, joka on proksimaalisen politiikan optimoinnin (PPO) muunnelma, joka voi parantaa matemaattista päättelykykyä samalla kun optimoidaan PPO:n muistin käyttö.

  1. Menetelmän ominaisuudet on tiivistetty seuraavasti:Laadukas matemaattinen esikoulutuskorpus rakennettiin, ja huolellisesti suunniteltua putkilinjaa käytettiin laadukkaan matemaattisen tiedon louhimiseen Common Crawlista.
  2. GRPO-algoritmi ehdotettiin, mikä vähentää koulutuksen vaatimia resursseja ja parantaa mallin matemaattista päättelykykyä. 3) Huippuluokan suorituskyky oli saavutettu useissa matemaattisen päättelyn vertailutesteissä.

Yleiskatsaus

Otsikko: DeepSeekMath: Matemaattisen päättelyn rajojen työntäminen avoimissa kielimalleissa

URL-osoite: klikkaa tästä

Tekijät: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Koodi: klikkaa tästä

Motivaatio

Matemaattinen päättely asettaa kielimalleille merkittävän haasteen matematiikan monimutkaisuuden ja rakenteellisen luonteen vuoksi. Edistyksellisimmät mallit, kuten GPT-4 ja Gemini-Ultra, ovat tehokkaita, mutta eivät julkisesti saatavilla. Toiminnassa on siis huomattavasti parantamisen varaa avoimen lähdekoodin malleja.

Monimutkaisuus ja rakenne: Matemaattinen päättely asettaa kielimalleille merkittävän haasteen matematiikan monimutkaisuuden ja rakenteellisen luonteen vuoksi.

Julkisen tiedon potentiaali: Julkisesti saatavilla olevat verkkotiedot voivat sisältää runsaasti matemaattista tietoa, jota ei ole vielä louhittu ja hyödynnettävä.

menetelmät

Tiedonkeruu: 120B tunnuksen DeepSeekMath-korpus rakennettiin keräämällä korkealaatuista matematiikkaan liittyvää verkkodataa Common Crawlista iteratiivisen liukuhihnan kautta.

Mallikoulutus: Korpusta käytettiin esikoulutukseen DeepSeek-Coder-Base-v1.5 7B:n päällä ja matemaattisten käskyjen hienosäätö- ja GRPO-algoritmia käytettiin.

GRPO-algoritmi: GRPO on parannettu vahvistusoppimisalgoritmi, joka poistaa kritiikin mallin PPO:sta ja arvioi lähtötason ryhmäpisteistä, mikä vähentää merkittävästi koulutusresursseja.

Yksityiskohtaiset menetelmät ja menettelyt:

Tiedonkeruu ja käsittely:

Rakenna DeepSeekMath Corpus: Käyttämällä fastText-pohjaista luokittelijaa, poimi 120B matematiikkaan liittyviä tunnuksia Common Crawlista rakentaakseen laajan, korkealaatuisen esikoulutetun DeepSeekMath Corpus -korpuksen.

Iteratiivinen tietojen suodatus: Iteratiivista strategiaa käytetään, käyttämällä OpenWebMathia siementietona alkuperäisen luokittelijan kouluttamiseen ja tämän luokittimen avulla positiivisten esimerkkien louhimiseen Common Crawlilta, jotka on merkitty manuaalisesti luokittelijan suorituskyvyn optimoimiseksi jatkuvasti.

Monikieliset ominaisuudet: DeepSeekMath Corpus sisältää monikielinen data, mikä parantaa mallin suorituskykyä kiinalaisissa matematiikan vertailuissa.

Saasteenpoistokäsittely: De-saastekäsittely suoritetaan harjoitustiedoilla päällekkäisyyden välttämiseksi testivertailuarvon kanssa.

Esikoulutus:

Koodipohjaisen mallin alustus: Alustus käyttämällä DeepSeek-Coder-Base-v1.5 7B mallin havaittiin olevan tehokkaampi kuin alustus yleisestä LLM:stä.

Harjoittelun tietojen koostumus: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github-koodi, 10% Common Crawl luonnollisen kielen tiedot.

Harjoittelun parametrit: Käytetään AdamW-optimoijaa, jonka oppimisnopeus on 4,2e-4, eräkoko 10M tokeneja ja koulutus 500B tokeneja.

Ohjeiden hienosäätö:

Muodosta ohjeiden hienosäätötietojoukko: Muodosta matemaattinen käskyn hienosäätötietojoukko, joka sisältää 776 000 näytettä, joka kattaa useita matemaattisia kenttiä ja vaikeustasoja, mukaan lukien CoT, PoT ja työkaluihin integroidut päättelymuodot vaiheiden ratkaisemiseen.

Harjoittelun parametrit: Eräkoko 256, oppimisnopeus 5e-5, harjoittele 500 askelta.

Vahvistusoppiminen – Group Relative Policy Optimization (GRPO):

Ehdota GRPO-algoritmia: Ehdota a PPO-muunnelma-algoritmi GRPO, joka välttää kriitikkomallin tarpeen käyttämällä ryhmäkohtaisia pisteitä perustason arvioimiseen, mikä vähentää koulutusresursseja.

Objektiivinen toiminto: GRPO optimoi politiikkamallin maksimoimalla tavoitefunktion, joka ottaa huomioon ryhmän sisäisten tulosten suhteellisen edun ja lisää suoraan KL-hajoamisen regularisointitermiksi.

Edun laskeminen: GRPO laskee edun kautta ryhmän sisäiset suhteelliset palkkiot, ryhmien välisten vertailujen välttäminen ja paremmin palkkiomallin vertailevan luonteen noudattaminen.

Tukee sekä tulosten että prosessien seurantaa: GRPO voi tukea sekä tulosten että prosessien seurantaa ja valvoa politiikkaa tehokkaammin tarjoamalla palkkioita jokaisen päättelyvaiheen lopussa.

Iteratiivinen RL: Käyttää an iteratiivinen RL-strategia luoda uusi koulutussarja käytäntömallin otantatulosten perusteella, kouluttaa jatkuvasti vanhaa palkkiomallia ja käyttää uutta palkkiomallia käytäntömallin päivittämiseen.

Harjoittelutiedot: Käyttää SFT-tiedoissa GSM8K- ja MATH-muotoihin liittyviä CoT-muotoongelmia, noin 144K-ongelmia.

Harjoittelun parametrit: Käytäntömallin oppimisnopeus on 1e-6, KL-kerroin on 0,04, jokaiselle tehtävälle otetaan 64 tulostetta, maksimipituus on 1024 ja koulutuserän koko on 1024.

Päätelmä

Johtopäätös 1:DeepSeekMath 7B ylittää kaikki avoimen lähdekoodin mallit matemaattisessa päättelykyvyssä. Kilpailevassa MATH-benchmark-testissä DeepSeekMath 7B saavutti tarkkuuden 51.7%, mikä on lähellä Gemini-Ultran ja GPT-4:n suorituskykytasoa.

Johtopäätös 2:Hyvin suunniteltu esikoulutusdata ja GRPO-algoritmit ovat avain mallin menestykseen. Korkealaatuisen matemaattisen korpuksen ja GRPO-algoritmien yhdistelmä mahdollistaa sen, että malli saavuttaa merkittäviä suorituskyvyn parannuksia matemaattisissa päättelytehtävissä.

Johtopäätös 3:Koodiharjoittelu auttaa parantamaan matemaattista päättelykykyä. Kooditietojen lisääminen esiopetusvaiheeseen voi parantaa mallin kykyä ratkaista matemaattisia ongelmia sekä työkaluilla että ilman.

Johtopäätös 4: ArXiv-tietojen rajoitettu käyttökelpoisuus: Vastoin aiempia uskomuksia, arXiv-tiedon havaittiin auttavan vain vähän matemaattisen päättelyn parantamisessa.

Rajoitus

Geometria ja todistusominaisuudet ovat suhteellisen heikkoja: Vaikka DeepSeekMath loistaa kvantitatiivisessa päättelyssä, sen geometrian ja todisteen ominaisuudet ovat edelleen huonompia kuin suljetun lähdekoodin malleissa. Tämä voi johtua harhautuneesta datan valinnasta esiharjoittelu- ja hienosäätövaiheessa.

Pienen näytekapasiteetin heikkous: DeepSeekMath on huonompi kuin GPT-4 pienen otoksen oppimisen suhteen, mikä saattaa johtua mallin koon rajoituksista.

Tehokkaampia vahvistusoppimismenetelmiä tarvitaan: Vaikka työssä ehdotetut vahvistusoppimismenetelmät ovat tehokkaita, on vielä parantamisen varaa esimerkiksi palkitsemismallin palautteen tehokkaampaan hyödyntämiseen ja meluisten palkitsemissignaalien käsittelyyn.

Yksityiskohdat

Vahvistusoppimisen tutkiminen ja analyysi

Yleiskatsaus:

Ryhmäsuhteellisen politiikan optimoinnin (GRPO) esittely: Paperissa ehdotetaan uutta vahvistusoppimisalgoritmia, GRPO:ta, proksimaalisen politiikan optimoinnin (PPO) muunnelmana. GRPO:n pääominaisuus on se hylkää PPO:ssa yleisesti käytetyn Critic-mallin ja arvioi lähtötilanteen ryhmäpisteiden kautta, mikä vähentää huomattavasti koulutukseen tarvittavia laskentaresursseja.

GRPO:n tehokkuuden esittely: Paperi osoittaa kokeellisesti, että GRPO voi parantaa tehokkaasti komentojen hienosäätömallien suorituskykyä, mukaan lukien sekä verkkotunnuksen sisäiset että verkkotunnuksen ulkopuoliset matemaattiset tehtävät.

Yhtenäinen kehys vahvistusoppimismenetelmille: Artikkelissa ehdotetaan yhtenäistä viitekehystä erilaisten vahvistusoppimismenetelmien, kuten esim Hylkäyksen näytteenoton hienosäätö (RFT), suora asetusten optimointi (DPO), PPO ja GRPO. Viitekehys käsittelee näitä menetelmiä suorina tai yksinkertaistettuina vahvistusoppimistekniikoina.

Vahvistusoppimisen elementtien syvällinen tutkiminen: Lehti tutkii perusteellisesti vahvistusoppimisen keskeiset elementit, kuten verkko- ja offline-koulutus, tulosten valvonta ja prosessien valvonta, yhden kierroksen vahvistusoppiminen ja iteratiivinen vahvistusoppiminen, yksityiskohtaisten kokeiden avulla ja tiivistää mahdolliset suunnat vahvistavan oppimisen tehokkuuden parantamiseksi.

GRPO (Group Relative Policy Optimization) -algoritmi

Rajoitukset PPO: PPO on yleisesti käytetty vahvistusoppimisalgoritmi, mutta se vaatii koulutusta Kriittinen lisämalli arvioida arvofunktio, joka määrää lisää laskenta- ja muistitaakkaa. Lisäksi LLM-skenaariossa Kriittisen mallin koulutus voi olla monimutkaista, koska se vaatii arviointia kunkin tunnuksen tulos.

GRPO:n ydinidea: GRPO:n ydinajatus on hylkää kritiikkimalli ja käytä sen sijaan lähtötasona saman ongelman tulosjoukon keskiarvoa. Tätä perusviivaa voidaan käyttää hyötyfunktion arvioimiseen ja politiikan optimointiin. Tämä lähestymistapa vähentää huomattavasti koulutuksen monimutkaisuutta.

Etufunktion laskenta: GRPO laskee etufunktion laskea kunkin tuotoksen suhteellinen sijoitus samassa tulosjoukossa sen sijaan, että luottaisi erilliseen arvofunktioon kuten PPO:ssa.

KL:n erotusrangaistus: GRPO ei lisää palkkioon KL-poikkeamaa, kuten PPO, vaan lisää politiikkamallin ja vertailumallin välisen KL-poikkeaman suoraan tappiofunktioon. Näin vältytään monimutkaiselta etufunktion laskemiselta.

GRPO:n ydinidea

ei vaadi kritiikkiä (arvofunktio): GRPO välttää arvofunktion tarpeen ja käyttää ryhmän sisäistä pistemäärää perustason arvioimiseenvähentäen siten koulutusresursseja.

Ryhmän sisäinen suhteellinen etu: Kutakin tehtävää q varten GRPO ottaa näytteitä joukon lähtöjä {o(1), o(2), …, o(G)} vanhasta käytännöstä π(θold) ja sitten optimoi käytäntömallin maksimoimalla seuraavan yhtälön tavoitefunktiona.

Erityisesti:

Avain tässä on Â(i,t), joka edustaa etua ja sen laskee suhteellinen palkkio ryhmän sisäisestä tuotosta, sen sijaan, että luottaisit erilliseen arvofunktioon, kuten PPO:ssa.

Kohdefunktio lisää myös suoraan KL-divergentti regularisointitermi, jolla ohjataan suuruutta käytäntöpäivitykset

ja mukaudu palkkiomallin vertailun luonteeseen: GRPO käyttää suhteellista ryhmän sisäistä palkkiota edun laskemiseen, mikä vastaa paremmin palkkiomallin luonnetta, jota yleensä harjoitetaan parivertailun perusteella.

Miten GRPO:n palkkiomalli voidaan suunnitella (katso DeepSeek R1)?

Ominaisuudet:

muoto palkinto: pakottaa sukupolven pitkä pinnasänky tulokset, jotka voivat työntää mallia generoimaan päättelyprosesseja ja parantaa mallin päättelyvaikutusta.

tarkkuuspalkinto: matematiikka voi käyttää lopputulosta, ja koodi voi käyttää kääntäjän palautetta.

GRPO:n edut

Vähemmän muistitilaa: kriittistä mallia ei tarvita, mikä vähentää muistivaatimuksia.

Tehokkaampi koulutus: laskeminen ryhmän sisäisellä suhteellisella edulla yksinkertaistaa koulutusprosessia.

Yhteensopivampi palkintomallien luonteen kanssa: parantaa harjoittelun vakautta ja tehokkuutta.

RL:n yhtenäisen paradigman yhteenveto

Ehdotettu yhtenäinen paradigma

Kirjoittajat ehdottavat yhtenäistä paradigmaa eri koulutusmenetelmien ymmärtämiseksi, kuten SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO jne. RL-avainelementit: Yhtenäisen viitekehyksen avainelementtejä ovat: tietolähteet, palkitsemisfunktiot ja algoritmit.

  • Tietolähde: Tämä viittaa koulutuksessa käytettyihin tietoihin, jotka voidaan johtaa manuaalisista merkinnöistä, SFT-malleista tai reaaliaikaisista käytäntömalleista.
  • Palkintotoiminto: Tämä viittaa funktioon, jota käytetään arvioimaan tulosteen laatua ja joka voi olla sääntö tai malli.
  • Algoritmi: Tämä viittaa menetelmään, jota käytetään datan ja palkkiosignaalin käsittelemiseen ja malliparametrien päivittämiseen.

Erilaisten menetelmien analyysi yhtenäisen paradigman pohjalta

Taulukossa 10 on yhteenveto yhtäläisyyksistä ja eroista SFT:n, RFT:n, DPO:n, Online RFT:n, PPO:n ja GRPO:n välillä tietolähteiden, palkkiofunktioiden ja gradienttikertoimien osalta.

MenetelmäHarjoittelutiedotPalkitsemistoimintoGradienttikerroinKoulutusmenetelmäEdut/ominaisuudetSovellettavat skenaariot
SFTManuaalisesti merkityt SFT-tiedotManuaalisesti valittu (implisiittinen palkkio)Kiinnitetty kohtaan 1Ohjattu oppiminenYksinkertainen ja vakaa, riippuvainen korkealaatuisista merkityistä tiedoistaMallin peruskoulutus, alkulinjaustehtävä
RFTSFT-tietojoukon ongelma + SFT-mallin näytelähtöPerustuu vastauksen oikeellisuuteen (sääntöpäätös)0 (väärä) tai 1 (oikea)Offline-käytäntöjen optimointiTehokas laskenta, sääntöpalautteen suora käyttöMatemaattiset/loogiset tehtävät selkeillä säännöillä
DPOSFT-tietojoukon ongelma + mallin lähtöIhmisten mieltymysten merkitseminen tai sääntöjen vertailuPerustuu preferenssitodennäköisyyslaskelmaan (esim. Bradley-Terry-malli)VertailuoppiminenVälttää nimenomaisen palkkioiden mallintamisen ja optimoi asetukset suoraanIhmisten mieltymysten kohdistamistehtävät (esim. dialogin luominen)
Online RFTReaaliaikainen politiikkamallin otanta ongelma-tulosparitPerustuu vastauksen oikeellisuuteen (sääntöpäätös)0 (väärä) tai 1 (oikea)Online-politiikan optimointiPäivittää käytännöt dynaamisesti reaaliaikaisen palautteen optimoinnin avullaSkenaariot, jotka vaativat verkkovuorovaikutusta (esim. pelin tekoäly)
PPOSFT-tietojoukon ongelma + politiikkamallin otantatulosPalkitsemismalli (RM) koulutettuDominanssifunktio (perustuu palkkioarvioon)Käytännön gradienttimenetelmäTehokas ja vakaa, tukee monivaiheista optimointiaMonimutkaiset tehtävät (esim. tekstin luominen, robotin ohjaus)
GRPOSFT-tietojoukon ongelma + käytäntömallin näytteenottotulosPalkitsemismalli (RM) koulutettuRyhmän sisäinen suhteellinen palkkio (normalisoitu vertailu)Ryhmäpolitiikan optimointiVähennä palkkioiden vaihtelua ja paranna ryhmän sisäistä vertailuaTehtävät, joissa on suuri varianssi (esim. pitkän tekstin luominen)

Havainnot tietolähteistä

Online vs offline koulutus: Online-koulutus tarkoittaa reaaliaikaisen käytäntömallin tulosteen käyttämistä koulutustietona, kun taas offline-harjoittelu tarkoittaa kiinteän mallin (kuten SFT-mallin) tulosteen käyttöä koulutustietona. Kokeelliset tulokset osoittavat sen online-koulutus on yleensä parempi kuin offline-koulutus.

Tuloksen valvonta vs prosessin valvonta: Tuloksen valvonta viittaa vain tuotoksen viimeisen vaiheen palkitsemiseen, kun taas prosessin valvonta viittaa päättelyprosessin jokaisen vaiheen palkitsemiseen. Kokeelliset tulokset osoittavat sen prosessin valvonta on tehokkaampaa monimutkaisissa tehtävissä.

Yhden jakson vs iteratiivinen vahvistusoppiminen: Yhden jakson vahvistusoppiminen tarkoittaa yhden strategian optimointia, kun taas iteratiivisella vahvistusoppimisella tarkoitetaan palkkiomallin jatkuvaa päivittämistä useiden strategiaoptimointien jälkeen. Kokeelliset tulokset osoittavat sen Iteratiivinen vahvistusoppiminen voi parantaa merkittävästi suorituskykyä, etenkin ensimmäisessä iteraatiossa.

Gradienttikertoimien havainnointi

Sääntöpohjainen vs. mallipohjainen: Sääntö viittaa palkkion määrittämiseen vastauksen oikeellisuuden perusteella, ja malli viittaa palkitsemismallin kouluttamiseen pisteyttämään.

Ero gradienttikertoimissa: Tärkein ero GRPO:n ja Online RFT tarkoittaa, että GRPO säätää gradienttikertoimiaan palkkiomallin tarjoamien palkkioarvojen perusteella, kun taas Online RFT ei.

GRPO:n edut: Kokeet osoittavat sen GRPO on parempi kuin Online RFT, mikä osoittaa gradienttikertoimien etumerkin muuttamisen tehokkuuden. GRPO+PS on parempi kuin GRPO+OS, mikä osoittaa hienorakeisten, askeltietoisten gradienttikertoimien käytön edut.

RL:n tehokkuus ja parannusohjeet

Miksi RL on tehokas?

Kokeilutulokset: RL parantaa Maj@K:n suorituskykyä, mutta ei Pass@K:ta.

Selitys: RL parantaa mallin kokonaissuorituskykyä tekemällä tulosjakaumasta robustimpaa, eli se parantaa oikeiden vastausten todennäköisyyttä TopK:ssa sen sijaan, että se lisää mallin taustalla olevaa kykyä.

Kuinka tehokkaampi RL voidaan saavuttaa?

Kirjoittajat ehdottavat yhtenäisen paradigman pohjalta tulevia suuntaviivoja RL:n parantamiseksi kolmessa suhteessa: tietolähteet, algoritmit ja palkitsemisfunktiot.

  • Tietolähteet:
    • Tutustu SFT-vaiheen ulkopuolisiin ongelmiin.
    • Käytä kehittyneempiä näytteenotto- (dekoodaus) strategioita, kuten puuhakupohjaisia menetelmiä.
    • Käytä tehokkaita päättelytekniikoita parantaaksesi politiikkamallin etsintätehokkuutta.
  • Algoritmi:
    • Tutustu vahvistusoppimisalgoritmeihin, jotka ovat kestävämpiä meluisille palkitsemissignaaleille.
    • Tutustu HEIKKOSTA VAHVAAN -tyyppisiin kohdistusmenetelmiin.
  • Palkintotoiminto:
    • Paranna palkkiomallin yleistyskykyä jakeluun kuulumattomien ongelmien ja kehittyneiden dekoodattujen tulosteiden käsittelemiseksi.
    • Heijasta palkitsemismallin epävarmuutta ja käytä sitä siltana yhdistämään heikkoja palkkiomalleja ja HEIKKOSTA VAHVAAN oppimisalgoritmeja.
    • Rakenna tehokkaasti korkealaatuisia prosessipalkkiomalleja, jotka tarjoavat hienojakoisia koulutussignaaleja päättelyprosessille.

Yhteenveto

DeepSeekMath on merkittävästi parantanut avoimen lähdekoodin kielimallien kykyä matemaattisessa päättelyssä rakentamalla laajamittaisen matemaattisen korpuksen ja ehdottamalla uutta vahvistusoppimisalgoritmia. Tämän lehden kohokohdat ovat

  • DeepSeekMath Corpuksen rakentaminen ja validointi, laajamittainen, laadukas, monikielinen matemaattinen korpus.
  • Tehokas vahvistusoppimisalgoritmi, GRPO, ehdotetaan vähentämään muistin käyttöä ja parantamaan mallin matemaattista päättelykykyä.
  • Koodikoulutuksen vaikutusta matemaattiseen päättelykykyyn käsitellään perusteellisesti, ja todetaan, että arXiv-datalla on rajallinen vaikutus. DeepSeekMath:n arvo:
  • Se tarjoaa avoimen lähdekoodin yhteisölle tehokkaan matemaattisen päättelymallin ja edistää matemaattisen tekoälyn kehitystä.
  • Se tarjoaa arvokasta kokemusta ja menetelmiä matemaattisten korpujen rakentamiseen ja matemaattisten päättelymallien koulutukseen.
  • Ehdotettu GRPO-algoritmi tarjoaa uusia ideoita vahvistavaan oppimiskoulutukseen muilla aloilla.

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *