Den DeepSeek R1-model har gennemgået en mindre versionsopgradering, hvor den nuværende version er DeepSeek-R1-0528. Når du åbner DeepSeek-websiden eller -appen, skal du aktivere funktionen "Deep Thinking" i dialoggrænsefladen for at opleve den nyeste version.

Vægtene på DeepSeek-R1-0528-modellen er blevet uploadet til HuggingFace.

I løbet af de sidste fire måneder har DeepSeek-R1 gennemgået en superudvikling, der har opnået usædvanlige kodningsfunktioner og betydeligt længere tænketider. Selvom det måske ikke er den DeepSeek-R2 Som alle forventede, er forbedringerne i DeepSeek-R1-0528-modellen betydelige.

Ifølge rapporter er den nye model trænet på DeepSeek-V3-0324 (med 660B parametre).

Lad os først se nærmere på de vigtigste opdateringer i denne udgivelse via en tabel.

Kompetencedimensiondeepseek-R1Deepseek-R1-0528
Maksimal kontekst64k (API)128K (API) endnu mere
KodegenereringliveCodeBench luk åben O1Tæt på O3
RæsonnementdybdeKomplekse spørgsmål kræver segmenterede prompts.Understøtter 30-60 minutters dyb tænkning
Sproglig naturlighedtemmelig langKompakt struktur, skrivning svarende til O3
BrugsomkostningerOpen source eller API$0.5/MOpen source eller API$0.5/M

Forbedrede dybdegående tænkningsevner

DeepSeek-R1-0528 bruger stadig DeepSeek V3 Base-modellen, der blev udgivet i december 2024, som fundament, men under eftertræningen blev der investeret mere computerkraft, hvilket forbedrede modellens tænkedybde og ræsonnementsevner betydeligt.

Den opdaterede R1-model har opnået toppræstation blandt alle indenlandske modeller i flere benchmark-evalueringer, herunder matematik, programmering og generel logik, og dens samlede præstation er nu på niveau med andre internationale topmodeller såsom o3 og Gemini-2.5-Pro.

  • Matematik- og programmeringsevner: I AIME 2025-matematikkonkurrencen blev nøjagtigheden forbedret fra 70% i den tidligere version til 87,5%; kodegenereringsevnerne i LiveCodeBench-benchmarktesten er næsten på niveau med OpenAIs o3-høje model, og opnåelsen af en score på pass@1 er 73,3%.

Brugertests viser, at den nye DeepSeek-R1 simpelthen er forbløffende i programmering!

AI-eksperten “karminski-dentist” testede DeepSeek-R1-0528 og Claude 4 Sonnet med den samme prompt og fandt ud af, at:

Uanset om det er den diffuse refleksion af lys på en væg, retningen af en bolds bevægelse efter et sammenstød eller den æstetiske appel af et kontrolpanel, overgår R1 klart konkurrenterne.

Brugeren Haider fik modellen til at bygge et ordscoringssystem. R1 overvejede kort opgaven og producerede straks to filer – en til kode og en anden til arbejdstest – som kørte fejlfrit i første forsøg.

Tidligere var o3 den eneste model, der var i stand til at udføre denne opgave. Nu er R1 uden tvivl den bedste model til denne opgave.

Bemærk at R1's ydeevne er så bemærkelsesværdig, fordi de to filer, den returnerer, kører fejlfrit i første forsøg, uden redigering eller genforsøg, hvilket er ekstremt sjældent.

Tidligere afsluttedes de fleste modeller enten i edge-tilfælde, overkomplicerede løsningen eller manglede tilstrækkelig testdækning.

  • Inferensdybde: Tænketiden for enkeltopgaver forlænget til 30-60 minutter med betydeligt forbedrede problemløsningsevner for komplekse problemstillinger (f.eks. fysiksimuleringer, flertrinslogiske gåder).

Længere tænketid er blevet den mest omtalte funktion online. Nogle brugere rapporterede, at R1's tænketid oversteg 25 minutter i virkelige tests.

Derudover ser dette ud til at være den eneste model, der er i stand til konsekvent korrekt at besvare "Hvad er 9,9 minus 9,11?"

DeepSeek-R1-0528 opnåede fremragende ydeevne på alle evalueringsdatasæt

Sammenlignet med den tidligere version af R1 viser den nye model betydelige forbedringer i komplekse ræsonnementsopgaver. For eksempel steg den nye models nøjagtighed i AIME 2025-testen fra 70% til 87,5%.

Denne forbedring skyldes den forbedrede dybde i ræsonnementet i modellen: på AIME 2025-testsættet brugte den gamle model i gennemsnit 12.000 tokens pr. spørgsmål, mens den nye model brugte i gennemsnit 23.000 tokens pr. spørgsmål, hvilket indikerer mere detaljeret og dybdegående tænkning i problemløsningsprocessen.

Derudover destillerede deepseek-teamet ræsonnementskæden fra DeepSeek-R1-0528 og finjusterede Qwen3-8B Base, hvilket resulterede i DeepSeek-R1-0528-Qwen3-8B.

Denne 8B-model blev kun rangeret som nummer to efter DeepSeek-R1-0528 i AIME 2024 matematiktesten, hvor den klarede sig bedre end Qwen3-8B (+10,0%) og matchede Qwen3-235B.

Ræsonnementskæderne i DeepSeek-R1-0528 vil have betydelige implikationer for akademisk forskning i ræsonnementsmodeller og industriel udvikling af småskalamodeller.

Nogle netbrugere roste DeepSeek-R1 for at være i stand til at korrigere ræsonnementkæder som o3 og kreativt konstruere verdener som Claude.

Det er vigtigt at bemærke, at DeepSeek er en open source-model, hvilket markerer en stor sejr for open source-modeller.

AIME 2024 sammenligningsresultater for open source-modeller såsom DeepSeek-R1-0528-Qwen3-8B

Andre funktionsopdateringer

  • Forbedring af hallucinationer: Den nye version af DeepSeek R1 har optimeret ydeevnen for "hallucinationsproblemer". Sammenlignet med den tidligere version opnår den opdaterede model en reduktion på 45-50% i hallucinationsrater på tværs af opgaver som omskrivning og finpudsning, opsummering og læseforståelse, hvilket leverer mere præcise og pålidelige resultater.
  • Kreativ skrivning: Baseret på den tidligere R1-version er den opdaterede R1-model blevet yderligere optimeret til essay-, roman- og prosaskrivestilarter, hvilket gør det muligt at generere længere, mere strukturelt komplette værker, samtidig med at den præsenterer en skrivestil, der er mere i overensstemmelse med menneskelige præferencer.
  • Værktøjskald: DeepSeek-R1-0528 understøtter værktøjskald (værktøjskald understøttes ikke i tænkning). Den nuværende models Tau-Bench evalueringsscorer er 53,5% for flyselskaber og 63,9% for detailhandel, sammenlignelige med OpenAI o1-høj, men stadig bagud i forhold til o3-Høj og Claude 4 Sonnet.

Eksemplet viser et resumé af en webartikel genereret ved hjælp af værktøjsaktiveringsfunktionen DeepSeek-R1-0528 via LobeChat. Derudover er DeepSeek-R1-0528 blevet opdateret og forbedret inden for områder som generering af frontend-kode og rollespil.

Eksemplet viser en moderne og minimalistisk ordkortapplikation udviklet ved hjælp af HTML/CSS/JavaScript ved at kalde DeepSeek-R1-0528 på en webside.

Vigtigste højdepunkter i DeepSeek-R1-0528-opdateringen

  • Dybdegående ræsonnementsevner sammenlignelige med Google-modeller
  • Optimering af tekstgenerering: mere naturlig og bedre formateret
  • Unik ræsonnementsstil: ikke kun hurtigere, men også mere stringent
  • Støtte til langsigtet tænkning: Bearbejdningstiden for enkeltopgaver kan nå op på 30-60 minutter

Funktionerne i den nye version af DeepSeek-R1 er blevet testet af os. Selvom det er en "mindre versions"-opdatering, er dens ydeevne blevet "episk" forbedret.

Især hvad angår programmeringsmuligheder, føles det som om, den har overgået eller er på niveau med Claude 4 og Gemini 2.5 Pro. Alle prompts er "one-shot" og kræver ingen ændringer! Og den kan køres direkte i en webbrowser for at demonstrere dens muligheder.

Man kan tydeligt mærke, at tankeprocessen i den nye DeepSeek-R1-version er mere stabil.

Du kan stille deepseek-R1 ethvert spørgsmål, du vil have svaret på, selvom dit spørgsmål er lidt meningsløst, vil den stadig tænke grundigt og organisere logikken. Vi anbefaler på det kraftigste, at du prøver den nyeste deepseek-R1-model.

API-opdateringsoplysninger

API'en er blevet opdateret, men brugerfladen og kaldsmetoderne forbliver uændrede. Den nye R1 API understøtter stadig visning af modellens tankeproces og understøtter nu også funktionskald og JsonOutput.

deepseek-teamet har justeret betydningen af parameteren max_tokens i den nye R1 API: max_tokens begrænser nu den samlede længde af modellens enkelte output (inklusive tankeprocessen) med en standardværdi på 32K og et maksimum på 64K. API-brugere rådes til at justere parameteren max_tokens med det samme for at forhindre, at outputtet afkortes for tidligt.

For detaljerede instruktioner om brug af R1-modellen henvises til deepseek R1 API-vejledning:

Efter denne R1-opdatering vil modelkontekstlængden på den officielle hjemmeside, miniprogrammet, appen og API'en forblive 64K. Hvis brugerne har brug for en længere kontekstlængde, kan de kalde open source-versionen af R1-0528-modellen med en kontekstlængde på 128K via andre tredjepartsplatforme.

Åben kilde

DeepSeek-R1-0528 bruger den samme basismodel som den tidligere DeepSeek-R1, med kun forbedringer af metoderne efter træning.

Ved privat implementering er det kun checkpoint og tokenizer_config.json (ændringer relateret til værktøjskald), der skal opdateres. Modelparametrene er 685B (hvoraf 14B er til MTP-laget), og open source-versionen har en kontekstlængde på 128K (64K kontekstlængde er angivet til web, app og API).

Lignende indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *