Abstrakti
Tässä asiakirjassa esitellään DeepSeek:n ensimmäisen sukupolven päättelymallit: DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero, joka on koulutettu laajamittaisen vahvistusoppimisen (RL) avulla ilman valvottua hienosäätöä (SFT), osoittaa huomattavia päättelykykyjä. RL:n avulla se kehittää luonnollisesti tehokkaita päättelykäyttäytymisiä. Sillä on kuitenkin haasteita, kuten huono luettavuus ja kielen sekoittuminen. Näiden ongelmien ratkaisemiseksi ja päättelytehokkuuden parantamiseksi kehitettiin DeepSeek-R1, joka sisältää monivaiheisen harjoittelun ja kylmäkäynnistysdatan ennen RL:ää. DeepSeek-R1 saavuttaa OpenAI-o1-1217:n kanssa vertailukelpoisen suorituskyvyn päättelytehtävissä. Tutkimuksen tukemiseksi DeepSeek on avoin lähdekoodi molemmille malleille ja kuudelle tiheälle mallille (1.5B, 7B, 8B, 14B, 32B, 70B), jotka on tislattu DeepSeek-R1:stä Qwenin ja Llaman perusteella.
Keskeiset panokset
Koulutuksen jälkeen: Suuren mittakaavan vahvistusoppiminen
- Onnistunut RL-sovellus suoraan perusmalliin ilman SFT:tä.
- Kehitti DeepSeek-R1-Zero-ohjelman, jossa demonstroidaan ominaisuuksia, kuten itsevarmennusta ja heijastusta.
- Ensimmäinen avoin tutkimus, joka osoittaa, että päättelykykyä voidaan kannustaa pelkästään RL:n avulla.
- Käyttöönotettu DeepSeek-R1:n putkisto, jossa on kaksi RL-vaihetta ja kaksi SFT-vaihetta.
Tislaus: Pienempien mallien voimaannuttaminen
- Osoitettiin, että suurempien mallien päättelymallit voidaan tehokkaasti tislata pienempiin malleihin.
- DeepSeek-R1 ja sen sovellusrajapinta on avattu tutkimusyhteisön hyödyksi.
- Hienosäädetty useita tiheitä malleja, jotka osoittavat poikkeuksellista suorituskykyä vertailuanalyyseissä.
- Distilled-mallit ovat huomattavasti parempia kuin aiemmat avoimen lähdekoodin mallit.
Arvioinnin tulokset
Päättelytehtävät
- DeepSeek-R1 saavuttaa 79,8% Pass@1 AIME 2024 -testissä ja ylittää OpenAI-o1-1217:n.
- 97,3%-pisteet MATH-500:ssa, suoritustaso on sama kuin OpenAI-o1-1217:llä.
- Asiantuntijatason suorituskyky koodikilpailutehtävissä 2 029 Elo-luokituksella Codeforcesissa
Osaamistehtävät
- Erinomaiset tulokset MMLU:ssa (90,8%), MMLU-Pro:ssa (84,0%) ja GPQA Diamondissa (71,5%).
- Ylittää muut suljetun lähdekoodin mallit koulutustehtävissä
- Vahva suorituskyky tosiasioihin perustuvissa vertailuarvoissa, kuten SimpleQA:ssa.
Yleiset valmiudet
- On erinomainen luovassa kirjoittamisessa, kysymyksiin vastaamisessa, muokkaamisessa ja tiivistämisessä.
- 87,6% voittoprosentti AlpacaEval 2.0:ssa ja 92,3% ArenaHardissa.
- Vahva suorituskyky pitkän kontekstin ymmärtämistehtävissä
Tuleva työ
Ryhmä aikoo keskittyä seuraaviin aiheisiin:
- Yleisten valmiuksien parantaminen sellaisilla aloilla kuin toimintojen kutsuminen ja monimutkainen roolipelaaminen.
- Kielten sekoittumiseen liittyvien ongelmien ratkaiseminen
- Kehotustekniikan parantaminen
- Suorituskyvyn parantaminen ohjelmistosuunnittelutehtävissä
Päätelmä
DeepSeek-R1 on merkittävä edistysaskel tekoälyn päättelykyvyssä vahvistusoppimisen avulla. Sekä päämallin että sen tislattujen versioiden menestys osoittaa tämän lähestymistavan mahdollisuudet kehittää entistä kyvykkäämpiä tekoälyjärjestelmiä. Näiden mallien avoimen lähdekoodin julkaisu edistää alan tutkimusta ja kehitystä.