Paperi-DeepSeek-R1: Päättelykyvyn kannustaminen LLM:ssä vahvistusoppimisen avulla

Sisällysluettelo

Abstrakti

Tässä asiakirjassa esitellään DeepSeek:n ensimmäisen sukupolven päättelymallit: DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero, joka on koulutettu laajamittaisen vahvistusoppimisen (RL) avulla ilman valvottua hienosäätöä (SFT), osoittaa huomattavia päättelykykyjä. RL:n avulla se kehittää luonnollisesti tehokkaita päättelykäyttäytymisiä. Sillä on kuitenkin haasteita, kuten huono luettavuus ja kielen sekoittuminen. Näiden ongelmien ratkaisemiseksi ja päättelytehokkuuden parantamiseksi kehitettiin DeepSeek-R1, joka sisältää monivaiheisen harjoittelun ja kylmäkäynnistysdatan ennen RL:ää. DeepSeek-R1 saavuttaa OpenAI-o1-1217:n kanssa vertailukelpoisen suorituskyvyn päättelytehtävissä. Tutkimuksen tukemiseksi DeepSeek on avoin lähdekoodi molemmille malleille ja kuudelle tiheälle mallille (1.5B, 7B, 8B, 14B, 32B, 70B), jotka on tislattu DeepSeek-R1:stä Qwenin ja Llaman perusteella.

Keskeiset panokset

Koulutuksen jälkeen: Suuren mittakaavan vahvistusoppiminen

Onnistunut RL-sovellus suoraan perusmalliin ilman SFT:tä.
Kehitti DeepSeek-R1-Zero-ohjelman, jossa demonstroidaan ominaisuuksia, kuten itsevarmennusta ja heijastusta.
Ensimmäinen avoin tutkimus, joka osoittaa, että päättelykykyä voidaan kannustaa pelkästään RL:n avulla.
Käyttöönotettu DeepSeek-R1:n putkisto, jossa on kaksi RL-vaihetta ja kaksi SFT-vaihetta.

Tislaus: Pienempien mallien voimaannuttaminen

Osoitettiin, että suurempien mallien päättelymallit voidaan tehokkaasti tislata pienempiin malleihin.
DeepSeek-R1 ja sen sovellusrajapinta on avattu tutkimusyhteisön hyödyksi.
Hienosäädetty useita tiheitä malleja, jotka osoittavat poikkeuksellista suorituskykyä vertailuanalyyseissä.
Distilled-mallit ovat huomattavasti parempia kuin aiemmat avoimen lähdekoodin mallit.

Arvioinnin tulokset

Päättelytehtävät

DeepSeek-R1 saavuttaa 79,8% Pass@1 AIME 2024 -testissä ja ylittää OpenAI-o1-1217:n.
97,3%-pisteet MATH-500:ssa, suoritustaso on sama kuin OpenAI-o1-1217:llä.
Asiantuntijatason suorituskyky koodikilpailutehtävissä 2 029 Elo-luokituksella Codeforcesissa

Osaamistehtävät

Erinomaiset tulokset MMLU:ssa (90,8%), MMLU-Pro:ssa (84,0%) ja GPQA Diamondissa (71,5%).
Ylittää muut suljetun lähdekoodin mallit koulutustehtävissä
Vahva suorituskyky tosiasioihin perustuvissa vertailuarvoissa, kuten SimpleQA:ssa.

Yleiset valmiudet

On erinomainen luovassa kirjoittamisessa, kysymyksiin vastaamisessa, muokkaamisessa ja tiivistämisessä.
87,6% voittoprosentti AlpacaEval 2.0:ssa ja 92,3% ArenaHardissa.
Vahva suorituskyky pitkän kontekstin ymmärtämistehtävissä

Tuleva työ

Ryhmä aikoo keskittyä seuraaviin aiheisiin:

Yleisten valmiuksien parantaminen sellaisilla aloilla kuin toimintojen kutsuminen ja monimutkainen roolipelaaminen.
Kielten sekoittumiseen liittyvien ongelmien ratkaiseminen
Kehotustekniikan parantaminen
Suorituskyvyn parantaminen ohjelmistosuunnittelutehtävissä

Päätelmä

DeepSeek-R1 on merkittävä edistysaskel tekoälyn päättelykyvyssä vahvistusoppimisen avulla. Sekä päämallin että sen tislattujen versioiden menestys osoittaa tämän lähestymistavan mahdollisuudet kehittää entistä kyvykkäämpiä tekoälyjärjestelmiä. Näiden mallien avoimen lähdekoodin julkaisu edistää alan tutkimusta ja kehitystä.

DeepSeek_R1 Lataa

Uncategorized

DeepSeek-R1-tekniikka paljastettiin: paperin perusperiaatteet murretaan ja avain läpimurtomallin suorituskykyyn paljastuu

Byzddeepseeker helmikuuta 9.2025helmikuuta 9.2025

Tänään jaamme DeepSeek R1:n, Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla: LLM:n päättelykyvyn kannustaminen vahvistusoppimisen avulla. Tässä artikkelissa esitellään DeepSeek:n ensimmäisen sukupolven päättelymallit, DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero-mallia koulutettiin laajamittaisella vahvistusoppimisella (RL) ilman valvottua hienosäätöä (SFT) alkuvaiheessa,…

Uncategorized

Qwen2.5-max vs DeepSeek R1: syvällinen mallien vertailu: täydellinen analyysi sovellusskenaarioista

Byzddeepseeker helmikuuta 14, 2025helmikuuta 14, 2025

Johdanto Nykyään suurilla kielimalleilla (LLM) on ratkaiseva rooli. Vuoden 2025 alussa, kun kilpailu tekoälystä kiristyi, Alibaba lanseerasi uuden Qwen2.5-max AI -mallin ja DeepSeek, Hangzhoussa Kiinassa, lanseerasi R1-mallin, joka edustaa LLM-teknologian huippua. Deepseek R1 on avoimen lähdekoodin tekoälymalli, joka on houkutellut…

Uncategorized

DeepSeek R1 paperin tulkinta ja keskeiset tekniset kohdat

Byzddeepseeker helmikuuta 9.2025helmikuuta 9.2025

1 Taustaa Kevätjuhlan aikana DeepSeek R1 herätti jälleen laajaa huomiota, ja jopa aiemmin kirjoittamamme DeepSeek V3 -tulkintaartikkeli lähetettiin uudelleen ja siitä keskusteltiin paljon. Vaikka DeepSeek R1:stä on tehty monia analyyseja ja kopioita, olemme päättäneet koota tähän joitain vastaavia lukumuistiinpanoja. Käytämme kolmea…

Uncategorized

Maailman valtavirran tekoälytuotteet keskittyvät analysointiin ja kattaviin käyttökokemusohjeisiin (mukaan lukien DeepSeek ja GPT)

Byzddeepseeker helmikuuta 10, 2025helmikuuta 10, 2025

Toimintojen paikannus ja ydinetuanalyysi ChatGPT (OpenAI) – maailmanlaajuinen benchmark monikäyttöisille ChatGPT Tekniset geenit: generatiivinen tekoäly, joka perustuu suurten mallien GPT-sarjaan, jonka ydinetuina ovat yleiset keskustelutaidot ja looginen päättely. Monikielinen käsittely: toimii parhaiten englannin kielellä, ja kiinaa parannetaan jatkuvasti; mutta suosittelemme käyttämään englantia…

Uncategorized

DeepSeek-R1-0528 Päivitys: Syvempi ajattelu, vahvempi päättelykyky

Byzddeepseeker 29. toukokuuta 202529. toukokuuta 2025

DeepSeek R1-malliin on tehty pieni päivitys, ja nykyinen versio on DeepSeek-R1-0528. Kun siirryt DeepSeek-verkkosivulle tai -sovellukseen, ota käyttöön "Deep Thinking" -ominaisuus valintaikkunassa kokeaksesi uusimman version. DeepSeek-R1-0528-mallin painot on ladattu HuggingFaceen. Viimeisten neljän kuukauden aikana DeepSeek-R1 on kokenut…

Uncategorized

Mitä Deepseek voi saavuttaa? Eikö jopa OpenAI pysty siihen?

Byzddeepseeker helmikuuta 10, 2025helmikuuta 10, 2025

DeepSeek:n todellinen arvo on aliarvioitu! DeepSeek-R1 on epäilemättä tuonut markkinoille uuden innostuksen aallon. Sen lisäksi, että asiaankuuluvat ns. edunsaajatavoitteet nousevat jyrkästi, jotkut ihmiset ovat jopa kehittäneet DeepSeek:hen liittyviä kursseja ja ohjelmistoja yrittääkseen ansaita siitä rahaa. Uskomme, että vaikka näillä ilmiöillä on…

Abstrakti

Keskeiset panokset

Koulutuksen jälkeen: Suuren mittakaavan vahvistusoppiminen

Tislaus: Pienempien mallien voimaannuttaminen

Arvioinnin tulokset

Päättelytehtävät

Osaamistehtävät

Yleiset valmiudet

Tuleva työ

Päätelmä

Samankaltaisia viestejä

Vastaa Peruuta vastaus