Paper-DeepSeek-R1: Incentivisering af ræsonneringsevnen i LLM'er via forstærkningslæring

Indholdsfortegnelse

Abstrakt

Denne artikel introducerer DeepSeek's første generation af ræsonneringsmodeller: DeepSeek-R1-Zero og DeepSeek-R1. DeepSeek-R1-Zero, der er trænet gennem storstilet forstærkningslæring (RL) uden overvåget finjustering (SFT), demonstrerer bemærkelsesværdige ræsonnementsevner. Gennem RL udvikler den naturligt en stærk ræsonnerende adfærd. Den står dog over for udfordringer som dårlig læsbarhed og sprogblanding. For at løse disse problemer og forbedre ræsonnementets ydeevne blev DeepSeek-R1 udviklet med flertrins-træning og koldstartsdata før RL. DeepSeek-R1 opnår præstationer, der kan sammenlignes med OpenAI-o1-1217 på ræsonneringsopgaver. For at understøtte forskning open-sourcer DeepSeek begge modeller og seks tætte modeller (1,5B, 7B, 8B, 14B, 32B, 70B) destilleret fra DeepSeek-R1 baseret på Qwen og Llama.

Vigtige bidrag

Efter træning: Forstærkningslæring i stor skala

Vellykket anvendelse af RL direkte på basismodellen uden SFT
Udviklet DeepSeek-R1-Zero, der demonstrerer evner som selvverifikation og refleksion
Første åbne forskning, der validerer, at ræsonnementsevner kan stimuleres udelukkende gennem RL
Introduceret pipeline til DeepSeek-R1 med to RL-trin og to SFT-trin

Destillation: Styrkelse af mindre modeller

Demonstreret, at ræsonnementer fra større modeller effektivt kan destilleres til mindre modeller
Open-sourced DeepSeek-R1 og dens API til gavn for forskningsverdenen
Finjusteret flere tætte modeller, der viser exceptionel benchmark-ydelse
Destillerede modeller er betydeligt bedre end tidligere open source-modeller

Resultater af evaluering

Ræsonnerende opgaver

DeepSeek-R1 opnår 79,8% Pass@1 på AIME 2024 og overgår dermed OpenAI-o1-1217
97.3% score på MATH-500, præsterer på niveau med OpenAI-o1-1217
Præstationer på ekspertniveau i kodekonkurrenceopgaver med 2.029 Elo-rating på Codeforces

Viden-opgaver

Fremragende resultater på MMLU (90.8%), MMLU-Pro (84.0%) og GPQA Diamond (71.5%)
Overgår andre closed source-modeller i uddannelsesopgaver
Stærk performance på faktuelle benchmarks som SimpleQA

Generelle kapaciteter

Udmærker sig ved kreativ skrivning, besvarelse af spørgsmål, redigering og opsummering
87,6% win-rate på AlpacaEval 2.0 og 92,3% på ArenaHard
Stærk præstation i opgaver med forståelse af lange kontekster

Fremtidigt arbejde

Teamet planlægger at fokusere på:

Forbedring af generelle evner inden for områder som funktionskald og komplekst rollespil
Håndtering af problemer med sprogblanding
Forbedring af prompting-teknik
Forbedring af ydeevnen på softwareudviklingsopgaver

Konklusion

DeepSeek-R1 repræsenterer et betydeligt fremskridt i AI's ræsonnementsevne gennem forstærkningslæring. Succesen med både hovedmodellen og dens destillerede versioner viser potentialet i denne tilgang til at udvikle mere kapable AI-systemer. Open source-udgivelsen af disse modeller vil bidrage til yderligere forskning og udvikling inden for området.

DeepSeek_R1 Download

Ikke kategoriseret

DeepSeek-R1 teknologi afsløret: kerneprincipperne i papiret er nedbrudt, og nøglen til banebrydende modelydelse afsløres

Afzddeepseeker 9. februar 20259. februar 2025

I dag vil vi dele DeepSeek R1, Titel: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning capability of LLM via reinforcement learning. Dette papir introducerer DeepSeeks første generation af ræsonnement-modeller, DeepSeek-R1-Zero og DeepSeek-R1. DeepSeek-R1-Zero-modellen blev trænet gennem storstilet forstærkningslæring (RL) uden overvåget finjustering (SFT) som et indledende trin,...

Ikke kategoriseret

Hvad kan Deepseek opnå? Selv OpenAI kan ikke gøre det?

Afzddeepseeker 10. februar 202510. februar 2025

Den sande værdi af DeepSeek er undervurderet! DeepSeek-R1 har uden tvivl bragt en ny bølge af entusiasme til markedet. Ikke alene stiger de relevante såkaldte modtagermål kraftigt, men nogle mennesker har endda udviklet DeepSeek-relaterede kurser og software i et forsøg på at tjene penge på det. Vi mener, at selvom disse fænomener har en...

Ikke kategoriseret

En omfattende sammenligning af OpenAI's nyligt udgivne o3-mini og DeepSeek R1

Afzddeepseeker 1. februar 20251. februar 2025

OpenAI har udgivet sin seneste inferensmodel, o3-mini, som er optimeret til områder som videnskab, matematik og programmering, og som giver hurtigere respons, højere nøjagtighed og lavere omkostninger. Sammenlignet med forgængeren o1-mini har o3-mini forbedret sine slutningsevner betydeligt, især når det gælder om at løse komplekse problemer. Testere foretrækker o3-minis svar med 56%, og fejlprocenten er...

Ikke kategoriseret

DeepSeek R1 kom først i prøven i kreativ skrivning, og o3 mini var endnu dårligere end o1 mini!

Afzddeepseeker 3. februar 20253. februar 2025

DeepSeek R1 vandt mesterskabet i benchmark-testen for kreativ novelleskrivning og overgik dermed den tidligere dominerende spiller Claude 3.5 Sonnet! Benchmark-test Benchmark-testen, der er designet af forskeren Lech Mazur, er ikke en helt almindelig skrivekonkurrence. Hver AI-model skulle færdiggøre 500 noveller, og hver historie skulle på en smart måde inkorporere...

Ikke kategoriseret

I AI-cirklen har DeepSeek R1 støt og roligt overgået o1 og Claude i fysiske tests, og vi er gået ind i RL's guldalder.

Afzddeepseeker 1. februar 20251. februar 2025

Ingen af os forventede, at det var sådan, 2025 ville begynde på AI-området. DeepSeek R1 er virkelig fantastisk! For nylig har den "mystiske østlige magt" DeepSeek "hårdt kontrolleret" Silicon Valley. Jeg bad R1 om at forklare Pythagoras' læresætning i detaljer. Alt dette blev gjort af AI på mindre end 30 sekunder uden nogen...

Ikke kategoriseret

Google har frigivet tre nye modeller på én gang: Gemini-2.0-Pro er gratis, har en enestående score og rangerer først og er velegnet til kodning og behandling af komplekse prompter!

Afzddeepseeker 8. februar 20258. februar 2025

Historien om Gemini 2.0 accelererer. Flash Thinking Experimental-versionen i december bragte udviklere en fungerende model med lav latenstid og høj ydeevne. Tidligere i år blev 2.0 Flash Thinking Experimental opdateret i Google AI Studio for at forbedre ydeevnen yderligere ved at kombinere Flash-hastigheden med forbedrede inferensegenskaber. I sidste uge…

Abstrakt

Vigtige bidrag

Efter træning: Forstærkningslæring i stor skala

Destillation: Styrkelse af mindre modeller

Resultater af evaluering

Ræsonnerende opgaver

Viden-opgaver

Generelle kapaciteter

Fremtidigt arbejde

Konklusion

Lignende indlæg

Skriv et svar Annuller svar