Den DeepSeek R1 modell har genomgått en mindre versionsuppgradering, där den nuvarande versionen är DeepSeek-R1-0528. När du öppnar DeepSeek-webbsidan eller appen, aktivera funktionen "Djuptänkande" i dialoggränssnittet för att uppleva den senaste versionen.

Modellvikterna DeepSeek-R1-0528 har laddats upp till HuggingFace

Under de senaste fyra månaderna har DeepSeek-R1 genomgått en superutveckling, vilket har uppnått kodningsmöjligheter som är oöverträffade och betydligt längre betänketid. Även om det kanske inte är den DeepSeek-R2 som alla förväntade sig är förbättringarna i DeepSeek-R1-0528-modellen betydande.

Enligt rapporter är den nya modellen tränad på DeepSeek-V3-0324 (med 660B-parametrar).

Låt oss först ta en snabb titt på de viktigaste uppdateringarna i den här utgåvan via en tabell.

Förmågedimensiondeepseek-R1Deepseek-R1-0528
Maximal kontext64k (API)128K (API) ännu mer
KodgenereringliveCodeBench stäng öppna O1Nära O3
ResonemangsdjupKomplexa frågor kräver segmenterade prompter.Stöder 30–60 minuters djupt tänkande
Språklig naturlighetganska långdragenKompakt struktur, skrivning liknande O3
AnvändningskostnadÖppen källkod eller API$0.5/MÖppen källkod eller API$0.5/M

Förbättrade djuptänkande förmågor

DeepSeek-R1-0528 använder fortfarande DeepSeek V3 Base-modellen som släpptes i december 2024 som grund, men under efterträningen investerades mer datorkraft, vilket avsevärt förbättrade modellens tankedjup och resonemangsförmåga.

Den uppdaterade R1-modellen har uppnått topprestanda bland alla inhemska modeller i flera benchmarkutvärderingar, inklusive matematik, programmering och allmän logik, och dess övergripande prestanda är nu i nivå med andra internationella toppmodeller som o3 och Gemini-2.5-Pro.

  • Matematik och programmeringsförmåga: I matematiktävlingen AIME 2025 förbättrades noggrannheten från 70% i den tidigare versionen till 87,5%; kodgenereringsförmågan i LiveCodeBench-benchmarktestet är nästan i nivå med OpenAI:s o3-höga modell, och uppnådde 73,3% ett resultat på godkänt@1.

Användartester visar att den nya DeepSeek-R1 är helt enkelt häpnadsväckande programmeringsmässigt!

AI-experten "karminski-dentist" testade DeepSeek-R1-0528 och Claude 4 Sonnet med samma prompt och fann att:

Oavsett om det gäller den diffusa reflektionen av ljus på en vägg, riktningen på en bolls rörelse efter en nedslag eller den estetiska tilltalande effekten av en kontrollpanel, så överträffar R1 helt klart konkurrenterna.

Användaren Haider lät modellen bygga ett ordpoängsystem. R1 övervägde kort uppgiften och producerade omedelbart två filer – en för kod och en annan för arbetstestning – som kördes felfritt på första försöket.

Tidigare var o3 den enda modellen som kunde slutföra denna uppgift. Nu är R1 utan tvekan den bästa modellen för denna uppgift.

Observera att R1:s prestanda är så anmärkningsvärd eftersom de två filerna den returnerar körs felfritt på första försöket, utan redigering eller omförsök, vilket är extremt sällsynt.

Tidigare avslutades de flesta modeller antingen i edge-fall, komplicerade lösningen överdrivet eller saknade tillräcklig testtäckning.

  • Inferensdjup: Tänketiden för en enskild uppgift utökad till 30–60 minuter, med avsevärt förbättrade problemlösningsförmågor för komplexa problem (t.ex. fysiksimuleringar, logiska pussel i flera steg).

Längre tanketid har blivit den mest diskuterade funktionen online. Vissa användare rapporterade att R1:s tanketid översteg 25 minuter i verkliga tester.

Dessutom verkar detta vara den enda modellen som konsekvent korrekt kan svara på frågan "Vad är 9,9 minus 9,11?"

DeepSeek-R1-0528 uppnådde utmärkt prestanda på alla utvärderingsdataset

Jämfört med den tidigare versionen av R1 visar den nya modellen betydande förbättringar i komplexa resonemangsuppgifter. Till exempel ökade den nya modellens noggrannhet i AIME 2025-testet från 70% till 87,5%.

Denna förbättring beror på det förbättrade resonemangsdjupet i modellen: i AIME 2025-testet använde den gamla modellen i genomsnitt 12 000 tokens per fråga, medan den nya modellen använde i genomsnitt 23 000 tokens per fråga, vilket indikerar mer detaljerat och djupgående tänkande i problemlösningsprocessen.

Dessutom destillerade deepseek-teamet resonemangskedjan från DeepSeek-R1-0528 och finjusterade Qwen3-8B-basen, vilket resulterade i DeepSeek-R1-0528-Qwen3-8B.

Denna 8B-modell rankades tvåa efter DeepSeek-R1-0528 i AIME 2024 års matematiktest, och presterade bättre än Qwen3-8B (+10.0%) och matchade Qwen3-235B.

Resonemanget i DeepSeek-R1-0528 kommer att ha betydande implikationer för akademisk forskning om resonemangsmodeller och industriell utveckling av småskaliga modeller.

Vissa nätanvändare berömde DeepSeek-R1 för att den kunde korrigera resonemangskedjor som o3 och kreativt konstruera världar som Claude.

Det är viktigt att notera att DeepSeek är en modell med öppen källkod, vilket markerar en stor seger för modeller med öppen källkod.

Jämförelseresultat från AIME 2024 för modeller med öppen källkod som DeepSeek-R1-0528-Qwen3-8B

Andra funktionsuppdateringar

  • Förbättring av hallucinationer: Den nya versionen av DeepSeek R1 har optimerat prestandan för "hallucinationsproblem". Jämfört med den tidigare versionen uppnår den uppdaterade modellen en minskning av hallucinationsfrekvensen med 45–50% i uppgifter som omskrivning och finsliping, sammanfattning och läsförståelse, vilket ger mer exakta och tillförlitliga resultat.
  • Kreativt skrivande: Baserat på den tidigare R1-versionen har den uppdaterade R1-modellen optimerats ytterligare för essäer, romaner och prosaskrivande stilar, vilket gör det möjligt att generera längre, mer strukturellt kompletta verk samtidigt som den presenterar en skrivstil som är mer anpassad till mänskliga preferenser.
  • Verktygsanrop: DeepSeek-R1-0528 stöder verktygsanrop (verktygsanrop stöds inte i Thinking). Den nuvarande modellens Tau-Bench-utvärderingspoäng är 53,5% för flygbolag och 63,9% för detaljhandel, jämförbart med OpenAI o1-hög, men fortfarande efter o3-Hög och Claude 4 Sonnet.

Exemplet visar en sammanfattning av en webbartikel som genererats med hjälp av verktygsanropsfunktionen DeepSeek-R1-0528 via LobeChat. Dessutom har DeepSeek-R1-0528 uppdaterats och förbättrats inom områden som generering av frontend-kod och rollspel.

Exemplet visar en modern och minimalistisk ordkortsapplikation utvecklad med HTML/CSS/JavaScript genom att anropa DeepSeek-R1-0528 på en webbsida.

Viktiga höjdpunkter i DeepSeek-R1-0528-uppdateringen

  • Djupgående resonemangsförmåga jämförbar med Googles modeller
  • Optimering av textgenerering: mer naturligt och bättre formaterat
  • Unik resonemangsstil: inte bara snabbare utan också mer rigorös
  • Stöd för långsiktigt tänkande: bearbetningstiden för en enskild uppgift kan uppgå till 30–60 minuter

Funktionerna hos den nya versionen av DeepSeek-R1 har testats av oss. Även om det är en "mindre versionsuppdatering" har dess prestanda förbättrats "episkt".

Speciellt när det gäller programmeringsmöjligheter känns det som att den har överträffat eller är i nivå med Claude 4 och Gemini 2.5 Pro. Alla instruktioner är "one-shot" och kräver inga modifieringar! Och den kan köras direkt i en webbläsare för att demonstrera dess funktioner.

Man kan tydligt känna att tankeprocessen i den nya DeepSeek-R1-versionen är mer stabil.

Du kan ställa vilken fråga du vill veta svaret på till deepseek-R1, även om din fråga är lite nonsens, kommer den fortfarande att tänka noga och organisera logiken. Vi rekommenderar starkt att du provar den senaste deepseek-R1-modellen.

Information om API-uppdatering

API:et har uppdaterats, men gränssnittet och anropsmetoderna är oförändrade. Det nya R1 API:et stöder fortfarande visning av modellens tankeprocess och stöder nu även funktionsanrop och JsonOutput.

deepseek-teamet har justerat betydelsen av parametern max_tokens i det nya R1 API:et: max_tokens begränsar nu den totala längden på modellens enskilda utdata (inklusive tankeprocessen), med ett standardvärde på 32K och maximalt 64K. API-användare rekommenderas att justera parametern max_tokens omedelbart för att förhindra att utdata avkortas i förtid.

För detaljerade instruktioner om hur man använder R1-modellen, se deepseek R1 API-guide:

Efter denna R1-uppdatering kommer modellens kontextlängd på den officiella webbplatsen, miniprogrammet, appen och API:et att förbli 64K. Om användare behöver en längre kontextlängd kan de anropa öppen källkodsversionen av R1-0528-modellen med en kontextlängd på 128K via andra tredjepartsplattformar.

Öppen källkod

DeepSeek-R1-0528 använder samma basmodell som den tidigare DeepSeek-R1, med endast förbättringar av metoderna efter träning.

Vid privat driftsättning behöver endast kontrollpunkten och tokenizer_config.json (ändringar relaterade till verktygsanrop) uppdateras. Modellparametrarna är 685 BIr (varav 14 BIr för MTP-lagret), och versionen med öppen källkod har en kontextlängd på 128 BIr (64 BIr tillhandahålls för webb, app och API).

Liknande inlägg

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *