De DeepSeek R1 model heeft een kleine versie-upgrade ondergaan, met versie DeepSeek-R1-0528 als huidige versie. Wanneer u de DeepSeek-webpagina of -app opent, schakelt u de functie 'Deep Thinking' in de dialooginterface in om de nieuwste versie te ervaren.

De gewichten van het model DeepSeek-R1-0528 zijn geüpload naar HuggingFace

In de afgelopen vier maanden heeft de DeepSeek-R1 een superevolutie ondergaan, met ongekende codeermogelijkheden en aanzienlijk langere denktijden. Hoewel het misschien niet de DeepSeek-R2 Zoals iedereen verwachtte, zijn de verbeteringen in het model DeepSeek-R1-0528 substantieel.

Volgens berichten is het nieuwe model getraind op DeepSeek-V3-0324 (met 660B parameters).

Laten we eerst even snel een blik werpen op de belangrijkste updates in deze release via een tabel

Capaciteitsdimensiedeepseek-R1Deepseek-R1-0528
Maximale context64k(API)128K(API)nog meer
CodegeneratieliveCodeBench sluit openai O1Dichtbij O3
RedeneringsdiepteVoor ingewikkelde vragen zijn gesegmenteerde vragen nodig.Ondersteunt 30-60 minuten diep nadenken
Taalnatuurlijkheidnogal langdradigCompacte structuur, schrijven vergelijkbaar met O3
GebruikskostenOpen source of API$0.5/MOpen source of API$0.5/M

Verbeterde mogelijkheden voor diepgaand denken

De DeepSeek-R1-0528 gebruikt nog steeds het in december 2024 uitgebrachte DeepSeek V3 Base-model als basis. Tijdens de na-training is er echter meer rekenkracht geïnvesteerd, waardoor de denkdiepte en het redeneervermogen van het model aanzienlijk zijn verbeterd.

Het bijgewerkte R1-model heeft in meerdere benchmarkevaluaties de beste prestaties geleverd van alle binnenlandse modellen, onder meer op het gebied van wiskunde, programmeren en algemene logica. De algehele prestaties zijn nu vergelijkbaar met die van andere internationale topmodellen, zoals de o3 en de Gemini-2.5-Pro.

  • Wiskundige en programmeervaardigheden: Bij de AIME 2025 wiskundewedstrijd verbeterde de nauwkeurigheid van 70% in de vorige versie naar 87,5%. De codegeneratiemogelijkheden in de LiveCodeBench-benchmarktest zijn vrijwel gelijk aan die van het o3-high-model van OpenAI, met een score van 73,3% (pass@1).

Gebruikerstests laten zien dat de nieuwe DeepSeek-R1 gewoonweg verbluffend goed is in programmeren!

AI-expert “karminski-dentist” testte DeepSeek-R1-0528 en Claude 4 Sonnet met dezelfde prompt en ontdekte het volgende:

Of het nu gaat om de diffuse reflectie van licht op een muur, de richting waarin een bal beweegt na impact of het esthetische uiterlijk van een bedieningspaneel: de R1 presteert duidelijk beter dan de concurrentie.

Gebruiker Haider liet het model een woordscoresysteem bouwen. R1 overwoog de taak kort en produceerde onmiddellijk twee bestanden – een voor de code en een voor de werktest – die in één keer feilloos werkten.

Voorheen was o3 het enige model dat deze taak aankon. Nu is R1 ongetwijfeld het beste model voor deze taak.

De prestaties van R1 zijn zo opmerkelijk omdat de twee bestanden die het retourneert in één keer vlekkeloos worden uitgevoerd, zonder dat er bewerkingen of nieuwe pogingen nodig zijn, iets wat extreem zeldzaam is.

Voorheen eindigden de meeste modellen in randgevallen, maakten ze de oplossing te ingewikkeld of ontbrak het aan voldoende testdekking.

  • Diepgaande gevolgtrekking: de denktijd voor één enkele taak is uitgebreid naar 30–60 minuten, met aanzienlijk verbeterde probleemoplossende vaardigheden voor complexe vraagstukken (bijvoorbeeld natuurkundige simulaties, logische puzzels met meerdere stappen).

Langere denktijd is de meest besproken functie online geworden. Sommige gebruikers meldden dat de denktijd van R1 in praktijktests meer dan 25 minuten bedroeg.

Bovendien lijkt dit het enige model te zijn dat consistent correct antwoord kan geven op de vraag: “Wat is 9,9 min 9,11?”

DeepSeek-R1-0528 behaalde uitstekende prestaties op alle evaluatiedatasets

Vergeleken met de vorige versie van R1 laat het nieuwe model aanzienlijke verbeteringen zien in complexe redeneertaken. Zo steeg de nauwkeurigheid van het nieuwe model in de AIME 2025-test van 70% naar 87,5%.

Deze verbetering is te danken aan de grotere diepgang van de redenering in het model: bij de AIME 2025-testset gebruikte het oude model gemiddeld 12.000 tokens per vraag, terwijl het nieuwe model gemiddeld 23.000 tokens per vraag gebruikte. Dit duidt op meer gedetailleerd en diepgaand denken in het probleemoplossingsproces.

Daarnaast heeft het deepseek-team de redeneringsketen van DeepSeek-R1-0528 gedistilleerd en Qwen3-8B Base verfijnd, wat resulteerde in DeepSeek-R1-0528-Qwen3-8B.

Dit 8B-model eindigde in de AIME 2024-wiskundetest alleen op de tweede plaats, na de DeepSeek-R1-0528. Daarmee overtrof het de Qwen3-8B (+10,0%) en evenaarde het de Qwen3-235B.

De redeneerketens van DeepSeek-R1-0528 zullen belangrijke implicaties hebben voor academisch onderzoek naar redeneermodellen en de industriële ontwikkeling van kleinschalige modellen.

Sommige internetgebruikers prezen DeepSeek-R1 omdat hij net als o3 redeneerketens kon corrigeren en op creatieve wijze werelden kon construeren zoals Claude.

Het is belangrijk om op te merken dat de DeepSeek een open-sourcemodel is, wat een grote overwinning is voor open-sourcemodellen.

AIME 2024-vergelijkingsresultaten voor open-sourcemodellen zoals DeepSeek-R1-0528-Qwen3-8B

Andere mogelijkhedenupdates

  • Verbetering van hallucinaties: De nieuwe versie van DeepSeek R1 heeft de prestaties voor "hallucinatieproblemen" geoptimaliseerd. Vergeleken met de vorige versie behaalt het bijgewerkte model een verlaging van 45-50% in hallucinatiepercentages bij taken zoals herschrijven en oppoetsen, samenvatten en begrijpend lezen, wat resulteert in nauwkeurigere en betrouwbaardere resultaten.
  • Creatief schrijven: Het bijgewerkte R1-model is gebaseerd op de vorige R1-versie en is verder geoptimaliseerd voor essays, romans en proza. Hierdoor kunnen er langere, structureel completere werken worden gegenereerd, waarbij de schrijfstijl beter aansluit bij menselijke voorkeuren.
  • Tool-aanroeping: DeepSeek-R1-0528 ondersteunt tool-aanroeping (tool-aanroeping wordt niet ondersteund in Thinking). De Tau-Bench-evaluatiescores van het huidige model zijn 53,5% voor luchtvaartmaatschappijen en 63,9% voor de detailhandel, vergelijkbaar met OpenAI o1-high, maar nog steeds achterlopend op o3-High en Claude 4 Sonnet.

Het voorbeeld toont een samenvatting van een webartikel, gegenereerd met behulp van de tool-aanroepfunctie van DeepSeek-R1-0528 via LobeChat. Daarnaast is DeepSeek-R1-0528 bijgewerkt en verbeterd op gebieden zoals front-end codegeneratie en rollenspellen.

Het voorbeeld toont een moderne en minimalistische woordkaarttoepassing die is ontwikkeld met behulp van HTML/CSS/JavaScript door DeepSeek-R1-0528 aan te roepen op een webpagina.

Belangrijkste hoogtepunten van de DeepSeek-R1-0528-update

  • Diepgaande redeneercapaciteiten vergelijkbaar met Google-modellen
  • Optimalisatie van tekstgeneratie: natuurlijker en beter opgemaakt
  • Unieke redeneerstijl: niet alleen sneller maar ook rigoureuzer
  • Ondersteuning voor langetermijndenken: de verwerkingstijd van een enkele taak kan 30 tot 60 minuten bedragen

We hebben de mogelijkheden van de nieuwe versie van de DeepSeek-R1 getest. Hoewel het een "kleine versie" betreft, zijn de prestaties 'enorm' verbeterd.

Vooral qua programmeermogelijkheden voelt het alsof het Claude 4 en Gemini 2.5 Pro heeft overtroffen of er zelfs mee op gelijke voet staat. Alle prompts zijn "one-shot", zonder aanpassingen! En het kan direct in een webbrowser worden uitgevoerd om de mogelijkheden te demonstreren.

Je voelt duidelijk dat het denkproces van de nieuwe DeepSeek-R1 versie stabieler is.

Je kunt deepseek-R1 elke vraag stellen waar je het antwoord op wilt weten, zelfs als je vraag een beetje onzinnig is, zal hij nog steeds goed nadenken en de logica ordenen. We raden je ten zeerste aan om het nieuwste deepseek-R1-model te proberen.

API-update-informatie

De API is bijgewerkt, maar de interface en aanroepmethoden zijn ongewijzigd gebleven. De nieuwe R1 API ondersteunt nog steeds het bekijken van het denkproces van het model en ondersteunt nu ook functieaanroepen en JsonOutput.

Het deepseek-team heeft de betekenis van de parameter max_tokens in de nieuwe R1 API aangepast: max_tokens beperkt nu de totale lengte van de individuele uitvoer van het model (inclusief het denkproces), met een standaardwaarde van 32 kB en een maximum van 64 kB. API-gebruikers wordt geadviseerd de parameter max_tokens snel aan te passen om te voorkomen dat de uitvoer voortijdig wordt afgebroken.

Voor gedetailleerde instructies over het gebruik van het R1-model, raadpleeg de deepseek R1 API-handleiding:

Na deze R1-update blijft de modelcontextlengte op de officiële website, het miniprogramma, de app en de API 64 kB. Gebruikers die een langere contextlengte nodig hebben, kunnen de open-sourceversie van het R1-0528-model met een contextlengte van 128 kB aanroepen via andere platforms van derden.

Open bron

De DeepSeek-R1-0528 maakt gebruik van hetzelfde basismodel als de vorige DeepSeek-R1. Alleen de methoden na de training zijn verbeterd.

Bij een privé-implementatie hoeven alleen het checkpoint en tokenizer_config.json (wijzigingen gerelateerd aan tool calls) te worden bijgewerkt. De modelparameters zijn 685 B (waarvan 14 B voor de MTP-laag) en de open-sourceversie heeft een contextlengte van 128 kB (64 kB voor web, app en API).

Vergelijkbare berichten

Geef een reactie

Uw e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *