The Model DeepSeek R1 je bila izvedena manjša nadgradnja, trenutna različica pa je DeepSeek-R1-0528. Ko vstopite na spletno stran ali v aplikacijo DeepSeek, v vmesniku dialoga omogočite funkcijo »Globoko razmišljanje«, da izkusite najnovejšo različico.

Uteži modela DeepSeek-R1-0528 so bile naložene na HuggingFace.

V zadnjih štirih mesecih je DeepSeek-R1 doživel super evolucijo, saj je dosegel zmogljivosti kodiranja, ki so izjemne, in bistveno daljše čase razmišljanja. Čeprav morda ni ... DeepSeek-R2 Kot so vsi pričakovali, so izboljšave v modelu DeepSeek-R1-0528 precejšnje.

Po poročilih je novi model usposobljen na DeepSeek-V3-0324 (s parametri 660B).

Najprej si na hitro oglejmo ključne posodobitve v tej izdaji v obliki tabele.

Dimenzija zmogljivostideepseek-R1Deepseek-R1-0528
Največji kontekst64k (API)128K (API) še več
Generiranje kodeliveCodeBench close openai O1Blizu O3
Globina sklepanjaKompleksna vprašanja zahtevajo segmentirane izzive.Podpira 30–60 minut poglobljenega razmišljanja
Naravnost jezikaprecej dolgKompaktna struktura, pisanje podobno kot O3
Stroški uporabeOdprtokodna različica ali API$0.5/MOdprtokodna različica ali API$0.5/M

Izboljšane sposobnosti globokega razmišljanja

DeepSeek-R1-0528 še vedno uporablja osnovni model DeepSeek V3, izdan decembra 2024, vendar je bila med naknadnim učenjem vanj vložena večja računalniška moč, kar je znatno izboljšalo globino razmišljanja in sposobnosti sklepanja modela.

Posodobljeni model R1 je dosegel vrhunsko zmogljivost med vsemi domačimi modeli v več primerjalnih testih, vključno z matematiko, programiranjem in splošno logiko, njegova splošna zmogljivost pa je zdaj na ravni drugih mednarodnih vrhunskih modelov, kot sta o3 in Gemini-2.5-Pro.

  • Matematične in programske sposobnosti: Na matematičnem tekmovanju AIME 2025 se je natančnost izboljšala s 70% v prejšnji različici na 87,5%; zmogljivosti generiranja kode v primerjalnem testu LiveCodeBench so skoraj na ravni OpenAI-jevega modela o3-high, dosežena ocena pass@1 pa je 73,3%.

Uporabniški testi kažejo, da je novi DeepSeek-R1 preprosto osupljiv pri programiranju!

Strokovnjak za umetno inteligenco »karminski-dentist« je z istim ukazom preizkusil DeepSeek-R1-0528 in Claude 4 Sonnet ter ugotovil, da:

Ne glede na to, ali gre za difuzni odsev svetlobe na steni, smer gibanja žoge po udarcu ali estetsko privlačnost nadzorne plošče, R1 očitno prekaša konkurenco.

Uporabnik Haider je modelu naročil, naj zgradi sistem točkovanja besed. R1 je na kratko preučil nalogo in takoj ustvaril dve datoteki – eno za kodo in drugo za testiranje dela – ki sta v prvem poskusu delovali brezhibno.

Prej je bil o3 edini model, ki je lahko opravil to nalogo. Zdaj je R1 nedvomno najboljši model za to nalogo.

Upoštevajte, da je zmogljivost R1 tako izjemna, ker obe datoteki, ki ju vrne, delujeta brezhibno že v prvem poskusu, brez kakršnega koli urejanja ali ponovnih poskusov, kar je izjemno redko.

Prej se je večina modelov bodisi končala v robnih primerih, preveč zapletla rešitev ali pa ni imela ustrezne pokritosti s testiranjem.

  • Globina sklepanja: Čas razmišljanja o eni nalogi se je podaljšal na 30–60 minut, z bistveno izboljšanimi sposobnostmi reševanja problemov za kompleksna vprašanja (npr. simulacije fizike, večstopenjske logične uganke).

Daljši čas razmišljanja je postal najbolj razpravljana funkcija na spletu. Nekateri uporabniki so poročali, da je čas razmišljanja R1 v resničnih testih presegel 25 minut.

Poleg tega se zdi, da je to edini model, ki lahko dosledno pravilno odgovori na vprašanje "Koliko je 9,9 minus 9,11?".

DeepSeek-R1-0528 je dosegel odlične rezultate na vseh naborih podatkov za vrednotenje

V primerjavi s prejšnjo različico R1 novi model kaže znatne izboljšave pri nalogah kompleksnega sklepanja. Na primer, v testu AIME 2025 se je stopnja natančnosti novega modela povečala s 70% na 87,5%.

Ta izboljšava je posledica povečane globine sklepanja v modelu: na testnem nizu AIME 2025 je stari model uporabil povprečno 12.000 žetonov na vprašanje, medtem ko je novi model uporabil povprečno 23.000 žetonov na vprašanje, kar kaže na podrobnejše in poglobljeno razmišljanje v procesu reševanja problemov.

Poleg tega je ekipa deepseek destilirala verigo sklepanja iz DeepSeek-R1-0528 in natančno uglasila bazo Qwen3-8B, kar je privedlo do DeepSeek-R1-0528-Qwen3-8B.

Ta model 8B se je na matematičnem testu AIME 2024 uvrstil na drugo mesto, takoj za DeepSeek-R1-0528, in presegel Qwen3-8B (+10,0%) ter se izenačil z modelom Qwen3-235B.

Verige sklepanja DeepSeek-R1-0528 bodo imele pomembne posledice za akademske raziskave modelov sklepanja in industrijski razvoj modelov majhnega obsega.

Nekateri uporabniki interneta so pohvalili DeepSeek-R1, ker je sposoben popravljati verige sklepanja, kot je o3, in ustvarjalno konstruirati svetove, kot je Claude.

Pomembno je omeniti, da je DeepSeek odprtokodni model, kar pomeni veliko zmago za odprtokodne modele.

Rezultati primerjave AIME 2024 za modele odprte kode, kot je DeepSeek-R1-0528-Qwen3-8B

Druge posodobitve zmogljivosti

  • Izboljšanje halucinacij: Nova različica modela DeepSeek R1 ima optimizirano delovanje za težave s »halucinacijami«. V primerjavi s prejšnjo različico posodobljeni model dosega zmanjšanje stopnje halucinacij za 45–50% pri nalogah, kot so prepisovanje in poliranje, povzemanje in bralno razumevanje, kar zagotavlja natančnejše in zanesljivejše rezultate.
  • Kreativno pisanje: Na podlagi prejšnje različice R1 je bil posodobljeni model R1 dodatno optimiziran za sloge pisanja esejev, romanov in proze, kar mu omogoča ustvarjanje daljših, strukturno bolj popolnih del, hkrati pa predstavlja slog pisanja, ki je bolj usklajen s človeškimi preferencami.
  • Klic orodij: DeepSeek-R1-0528 podpira klic orodij (klic orodij v Thinkingu ni podprt). Trenutni rezultati ocenjevanja Tau-Bench modela so 53,5% za letalske družbe in 63,9% za maloprodajo, kar je primerljivo z OpenAI o1-high, vendar še vedno zaostaja za o3-High in Claude 4 Sonnet.

Primer prikazuje povzetek spletnega članka, ustvarjen z uporabo orodja za klic DeepSeek-R1-0528 prek LobeChata. Poleg tega je bil DeepSeek-R1-0528 posodobljen in izboljšan na področjih, kot sta ustvarjanje kode v vmesniku in igranje vlog.

Primer prikazuje moderno in minimalistično aplikacijo za besedne kartice, razvito z uporabo HTML/CSS/JavaScript s klicem DeepSeek-R1-0528 na spletni strani.

Ključni poudarki posodobitve DeepSeek-R1-0528

  • Zmogljivosti globokega sklepanja, primerljive z Googlovimi modeli
  • Optimizacija ustvarjanja besedila: bolj naravno in bolje oblikovano
  • Edinstven slog sklepanja: ne le hitrejši, ampak tudi strožji
  • Podpora dolgoročnemu razmišljanju: čas obdelave ene same naloge lahko doseže 30–60 minut

Zmogljivosti nove različice DeepSeek-R1 smo preizkusili. Čeprav gre za "manjšo posodobitev", je bila njena zmogljivost "epsko" izboljšana.

Še posebej kar zadeva programske zmogljivosti, se zdi, kot da je presegel ali se izenačil z Claude 4 in Gemini 2.5 Pro. Vsi pozivi so "enkratni" in ne zahtevajo nobenih sprememb! Za demonstracijo zmogljivosti ga je mogoče zagnati neposredno v spletnem brskalniku.

Jasno je mogoče čutiti, da je miselni proces nove različice DeepSeek-R1 stabilnejši.

deepseek-R1 lahko postavite katero koli vprašanje, na katerega želite izvedeti odgovor. Tudi če je vaše vprašanje nekoliko nesmiselno, bo vseeno skrbno premislil in organiziral logiko. Toplo priporočamo, da preizkusite najnovejši model deepseek-R1.

Informacije o posodobitvi API-ja

API je bil posodobljen, vendar vmesnik in metode klicanja ostajajo nespremenjeni. Novi R1 API še vedno podpira ogled miselnega procesa modela in zdaj podpira tudi klicanje funkcij in JsonOutput.

Ekipa deepseek je v novem R1 API-ju prilagodila pomen parametra max_tokens: max_tokens zdaj omejuje skupno dolžino posameznega izhoda modela (vključno s procesom razmišljanja), s privzeto vrednostjo 32K in največ 64K. Uporabnikom API-ja svetujemo, da nemudoma prilagodijo parameter max_tokens, da preprečijo prezgodnje skrajšanje izhoda.

Za podrobna navodila o uporabi modela R1 glejte Vodnik po API-ju deepseek R1:

Po tej posodobitvi R1 bo dolžina konteksta modela na uradni spletni strani, v mini programu, aplikaciji in API-ju ostala 64K. Če uporabniki potrebujejo daljšo dolžino konteksta, lahko prek platform drugih ponudnikov pokličejo odprtokodno različico modela R1-0528 z dolžino konteksta 128K.

Odprta koda

DeepSeek-R1-0528 uporablja isti osnovni model kot prejšnji DeepSeek-R1, z izboljšavami le metod po usposabljanju.

Pri zasebnem uvajanju je treba posodobiti le kontrolno točko in tokenizer_config.json (spremembe, povezane s klici orodij). Parametri modela so veliki 685 MB (od tega 14 MB za plast MTP), odprtokodna različica pa ima dolžino konteksta 128 KB (za splet, aplikacijo in API je na voljo dolžina konteksta 64 KB).

Podobne objave

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja