Paper-DeepSeek-R1: Spodbujanje zmožnosti sklepanja v LLM prek učenja s krepitvijo

Kazalo

Povzetek

Ta članek predstavlja modele razmišljanja prve generacije DeepSeek: DeepSeek-R1-Zero in DeepSeek-R1. DeepSeek-R1-Zero, usposobljen z obsežnim okrepitvenim učenjem (RL) brez nadzorovane natančne nastavitve (SFT), dokazuje izjemne zmožnosti sklepanja. Skozi RL naravno razvija močna razmišljanja. Vendar se sooča z izzivi, kot sta slaba berljivost in mešanje jezikov. Za reševanje teh težav in izboljšanje zmogljivosti razmišljanja je bil razvit DeepSeek-R1, ki vključuje večstopenjsko usposabljanje in podatke o hladnem zagonu pred RL. DeepSeek-R1 dosega zmogljivost, primerljivo z OpenAI-o1-1217 pri nalogah razmišljanja. Za podporo raziskavam DeepSeek ponuja odprtokodne modele in šest zgoščenih modelov (1,5B, 7B, 8B, 14B, 32B, 70B), pridobljenih iz DeepSeek-R1 na osnovi Qwen in Llama.

Ključni prispevki

Po usposabljanju: obsežno krepitveno učenje

RL je bil uspešno uporabljen neposredno na osnovni model brez SFT
Razvit DeepSeek-R1-Zero, ki prikazuje zmogljivosti, kot sta samopreverjanje in refleksija
Prva odprta raziskava, ki potrjuje, da je zmožnosti razmišljanja mogoče spodbuditi zgolj z RL
Predstavljen cevovod za DeepSeek-R1 z dvema stopnjama RL in dvema stopnjama SFT

Destilacija: krepitev manjših modelov

Dokazal, da je mogoče vzorce sklepanja iz večjih modelov učinkovito razdeliti na manjše
Odprtokodni DeepSeek-R1 in njegov API v korist raziskovalne skupnosti
Natančno nastavljenih več gostih modelov, ki prikazujejo izjemno uspešnost primerjalne uspešnosti
Destilirani modeli znatno prekašajo prejšnje odprtokodne modele

Rezultati ocenjevanja

Naloge sklepanja

DeepSeek-R1 dosega 79,8% Pass@1 na AIME 2024 in preseže OpenAI-o1-1217
97,3% rezultat na MATH-500, enakovreden OpenAI-o1-1217
Zmogljivost na strokovni ravni pri tekmovalnih nalogah s kodo z oceno 2029 Elo na Codeforces

Naloge znanja

Izjemni rezultati na MMLU (90.8%), MMLU-Pro (84.0%) in GPQA Diamond (71.5%)
Prekaša druge zaprtokodne modele pri izobraževalnih nalogah
Močna uspešnost na dejanskih merilih, kot je SimpleQA

Splošne zmogljivosti

Odlični so v kreativnem pisanju, odgovarjanju na vprašanja, urejanju in povzemanju
87,6% dobitek na AlpacaEval 2.0 in 92,3% na ArenaHard
Močna zmogljivost pri nalogah razumevanja dolgega konteksta

Prihodnje delo

Ekipa se namerava osredotočiti na:

Izboljšanje splošnih zmogljivosti na področjih, kot sta klicanje funkcij in kompleksno igranje vlog
Reševanje težav z mešanjem jezikov
Izboljšanje hitrega inženiringa
Izboljšanje zmogljivosti pri nalogah programskega inženiringa

Zaključek

DeepSeek-R1 predstavlja pomemben napredek v zmožnostih sklepanja z umetno inteligenco s pomočjo učenja z okrepitvijo. Uspeh tako glavnega modela kot njegovih destiliranih različic dokazuje potencial tega pristopa za razvoj zmogljivejših sistemov AI. Odprtokodna izdaja teh modelov bo prispevala k nadaljnjim raziskavam in razvoju na tem področju.

DeepSeek_R1 Prenos

Nekategorizirano

a16z dialog s 27-letnim izvršnim direktorjem: AI Agent ima ogromen učinek finančnega vzvoda, dolgoročne cene pa bodo povezane s stroški dela

Avtor:zddeepseeker 8. februar 20258. februar 2025

Poudarki AI Agent preoblikuje uporabniško izkušnjo Jesse Zhang: Kako je agent pravzaprav sestavljen? Naše mnenje je, da bo sčasoma vse bolj podoben agentu, ki temelji na naravnem jeziku, ker se tako usposabljajo veliki jezikovni modeli (LLM). Dolgoročno, če imate super inteligentnega agenta, ki ...

Nekategorizirano

Posodobitev DeepSeek-R1-0528: Globlje razmišljanje, močnejše sklepanje

Avtor:zddeepseeker 29. maj 202529. maj 2025

Model DeepSeek R1 je bil podvržen manjši nadgradnji, trenutna različica je DeepSeek-R1-0528. Ko vstopite na spletno stran ali v aplikacijo DeepSeek, v vmesniku za pogovor omogočite funkcijo »Globoko razmišljanje«, da izkusite najnovejšo različico. Uteži modela DeepSeek-R1-0528 so bile naložene na HuggingFace. V zadnjih štirih mesecih je bil DeepSeek-R1 podvržen…

Nekategorizirano

Ali Qwen2.5-Max prehitel DeepSeek-V3! Netizen: Kitajska umetna inteligenca hitro zmanjšuje vrzel

Avtor:zddeepseeker 5. februar 20255. februar 2025

Ravno zdaj je bil na seznam Big Model Arena družbe Ali dodan še en domači model, Qwen2.5-Max, ki je presegel DeepSeek-V3 in se uvrstil na sedmo mesto v skupni razvrstitvi s skupnim rezultatom 1332. Z enim zamahom je presegel tudi modela, kot sta Claude 3.5 Sonnet in Llama 3.1 405B. Predvsem se odlikuje v programiranju…

Nekategorizirano

Googlov nizkocenovni model, serija Gemini 2.0, napada: bitka za stroškovno učinkovitost pri velikih modelih se zaostruje

Avtor:zddeepseeker 8. februar 20258. februar 2025

Visoki stroški uporabe velikih modelov umetne inteligence so glavni razlog, zakaj številne aplikacije umetne inteligence še niso bile implementirane in promovirane. Izbira ekstremne zmogljivosti pomeni velike stroške računalniške moči, kar vodi do visokih stroškov uporabe, ki jih navadni uporabniki ne morejo sprejeti. Tekmovanje za velike modele AI je kot vojna brez dima. Po…

Nekategorizirano

OpenAI o3-mini proti DeepSeek-R1: Kdo je kralj nove generacije modelov AI?

Avtor:zddeepseeker 1. februar 20251. februar 2025

o3-mini je tukaj, z zagonom izzivalca 31. januarja je OpenAI izdal povsem nov velik model o3-mini in vsem uporabnikom ChatGPT brezplačno ponudil nekatere njegove funkcije. Čeprav je število poizvedb omejeno, uporabnikom omogoča, da čim prej izkusijo najnovejši komercialni model OpenAI….

Nekategorizirano

Razlaga papirja DeepSeek R1 in ključne tehnične točke

Avtor:zddeepseeker 9. februar 20259. februar 2025

1 Ozadje Med pomladnim festivalom je DeepSeek R1 znova pritegnil široko pozornost in celo članek o interpretaciji DeepSeek V3, ki smo ga napisali prej, je bil prav tako ponovno posredovan in o njem veliko razpravljali. Čeprav je bilo veliko analiz in reprodukcij DeepSeek R1, smo se tukaj odločili zbrati nekaj ustreznih opomb pri branju. Uporabili bomo tri…

Paper-DeepSeek-R1: Spodbujanje zmožnosti sklepanja v LLM-jih s krepitvenim učenjem

Povzetek

Ključni prispevki