Svetainė DeepSeek R1 modelis buvo atliktas nedidelis versijos atnaujinimas, dabartinė versija yra DeepSeek-R1-0528. Įėję į DeepSeek tinklalapį ar programėlę, dialogo sąsajoje įjunkite funkciją „Deep Thinking“, kad išbandytumėte naujausią versiją.

DeepSeek-R1-0528 modelio svoriai buvo įkelti į „HuggingFace“.

Per pastaruosius keturis mėnesius DeepSeek-R1 patyrė super evoliuciją, pasiekdamas neprilygstamas kodavimo galimybes ir žymiai ilgesnį mąstymo laiką. Nors tai gali būti ne pats geriausias pasirinkimas... DeepSeek-R2 Visi tikėjosi, kad DeepSeek-R1-0528 modelio patobulinimai yra esminiai.

Remiantis pranešimais, naujasis modelis yra apmokytas naudojant DeepSeek-V3-0324 (su 660B parametrais).

Pirmiausia trumpai apžvelkime pagrindinius šio leidimo atnaujinimus lentelėje.

Gebėjimų dimensijadeepseek-R1Deepseek-R1-0528
Maksimalus kontekstas64k (API)128K (API) dar daugiau
Kodo generavimas„liveCodeBench“ uždarymas atidaromas O1Netoli O3
Samprotavimo gylisSudėtingiems klausimams reikalingos segmentuotos užduotys.Palaiko 30–60 minučių gilaus mąstymo
Kalbos natūralumasgana ilgasKompaktiška struktūra, rašymas panašus į O3
Naudojimo kainaAtvirojo kodo arba API$0.5/MAtvirojo kodo arba API$0.5/M

Patobulinti gilaus mąstymo gebėjimai

DeepSeek-R1-0528 vis dar naudoja 2024 m. gruodžio mėn. išleistą DeepSeek V3 bazinį modelį kaip pagrindą, tačiau po mokymo buvo investuota daugiau skaičiavimo galios, todėl žymiai padidėjo modelio mąstymo gylis ir samprotavimo galimybės.

Atnaujintas R1 modelis pasiekė aukščiausią našumą tarp visų vietinių modelių daugelyje lyginamųjų vertinimų, įskaitant matematiką, programavimą ir bendrąją logiką, o jo bendras našumas dabar prilygsta kitiems aukščiausios klasės tarptautiniams modeliams, tokiems kaip „o3“ ir „Gemini-2.5-Pro“.

  • Matematikos ir programavimo galimybės: AIME 2025 matematikos konkurse tikslumas pagerėjo nuo 70% ankstesnėje versijoje iki 87,5%; kodo generavimo galimybės „LiveCodeBench“ lyginamajame teste beveik prilygsta „OpenAI“ o3-high modeliui, o „pass@1“ balas pasiekiamas esant 73,3%.

Vartotojų testai rodo, kad naujasis DeepSeek-R1 programavimo srityje yra tiesiog stulbinantis!

Dirbtinio intelekto ekspertas „karminski-dentist“ išbandė DeepSeek-R1-0528 ir Claude 4 Sonnet naudodamas tą pačią užduotį ir nustatė, kad:

Ar tai būtų išsklaidytas šviesos atspindys nuo sienos, ar kamuolio judėjimo kryptis po smūgio, ar valdymo pulto estetinis patrauklumas, R1 akivaizdžiai pranoksta konkurentus.

Vartotojas Haideris liepė modeliui sukurti žodžių vertinimo sistemą. R1 trumpai apsvarstė užduotį ir iš karto sukūrė du failus – vieną kodui, o kitą – darbo testavimui, – kurie nepriekaištingai veikė iš pirmo karto.

Anksčiau o3 buvo vienintelis modelis, galintis atlikti šią užduotį. Dabar R1 neabejotinai yra geriausias modelis šiai užduočiai atlikti.

Atkreipkite dėmesį, kad R1 našumas yra toks įspūdingas, nes du grąžinami failai veikia nepriekaištingai iš pirmo bandymo, be jokio redagavimo ar pakartotinių bandymų, o tai yra itin retas atvejis.

Anksčiau dauguma modelių arba nutraukdavo darbą kraštutiniais atvejais, pernelyg komplikuodavo sprendimą, arba trūkdavo tinkamos testavimo aprėpties.

  • Išvadų gylis: vienos užduoties mąstymo laikas pailginamas iki 30–60 minučių, o sudėtingų problemų sprendimo gebėjimai (pvz., fizikos modeliavimas, daugiapakopiai loginiai galvosūkiai) gerokai padidėja.

Ilgesnis mąstymo laikas tapo labiausiai internete aptarinėjama funkcija. Kai kurie vartotojai pranešė, kad realių bandymų metu R1 mąstymo laikas viršijo 25 minutes.

Be to, atrodo, kad tai vienintelis modelis, galintis nuosekliai teisingai atsakyti į klausimą „Kiek yra 9,9 minus 9,11?“.

DeepSeek-R1-0528 pasiekė puikų našumą visuose vertinimo duomenų rinkiniuose

Palyginti su ankstesne R1 versija, naujasis modelis pasižymi reikšmingais patobulinimais atliekant sudėtingas samprotavimo užduotis. Pavyzdžiui, AIME 2025 teste naujojo modelio tikslumo rodiklis padidėjo nuo 70% iki 87,5%.

Šis pagerėjimas susijęs su patobulintu modelio samprotavimo gyliu: AIME 2025 testų rinkinyje senasis modelis vidutiniškai naudojo 12 tūkst. žetonų vienam klausimui, o naujasis modelis – vidutiniškai 23 tūkst. žetonų vienam klausimui, o tai rodo išsamesnį ir nuodugnesnį mąstymą problemų sprendimo procese.

Be to, deepseek komanda išgrynino samprotavimo grandinę iš DeepSeek-R1-0528 ir tiksliai suderino Qwen3-8B bazę, taip sukurdama DeepSeek-R1-0528-Qwen3-8B.

Šis 8B modelis AIME 2024 matematikos teste užėmė antrąją vietą po DeepSeek-R1-0528, pranokdamas Qwen3-8B (+10.0%) ir prilygdamas Qwen3-235B.

DeepSeek-R1-0528 samprotavimo grandinės turės didelę reikšmę akademiniams samprotavimo modelių tyrimams ir mažo masto modelių pramoninei plėtrai.

Kai kurie internautai gyrė DeepSeek-R1 už gebėjimą taisyti samprotavimų grandines, tokias kaip o3, ir kūrybiškai konstruoti pasaulius, tokius kaip Claude'as.

Svarbu pažymėti, kad DeepSeek yra atvirojo kodo modelis, žymintis didelę atvirojo kodo modelių pergalę.

AIME 2024 palyginimo rezultatai atvirojo kodo modeliams, tokiems kaip DeepSeek-R1-0528-Qwen3-8B

Kiti funkcijų atnaujinimai

  • Haliucinacijų patobulinimas: naujoji DeepSeek R1 versija optimizavo našumą „haliucinacijų“ problemoms spręsti. Palyginti su ankstesne versija, atnaujintas modelis pasiekia 45–50% haliucinacijų dažnio sumažėjimą atliekant tokias užduotis kaip perrašymas ir tobulinimas, santraukų rašymas ir skaitymo supratimas, todėl rezultatai yra tikslesni ir patikimesni.
  • Kūrybinis rašymas: Remiantis ankstesne R1 versija, atnaujintas R1 modelis buvo dar labiau optimizuotas esė, romano ir prozos rašymo stiliams, leidžiantis kurti ilgesnius, struktūriškai išsamesnius darbus, kartu pateikiant rašymo stilių, labiau atitinkantį žmogaus pageidavimus.
  • Įrankių iškvietimas: DeepSeek-R1-0528 palaiko įrankių iškvietimą (mąstymo metu įrankių iškvietimas nepalaikomas). Dabartinio modelio „Tau-Bench“ vertinimo balai yra 53,5% avialinijoms ir 63,9% mažmeninei prekybai, palyginami su „OpenAI o1-high“, bet vis tiek atsilieka nuo „o3-High“ ir „Claude 4 Sonnet“.

Pavyzdyje parodyta internetinio straipsnio santrauka, sugeneruota naudojant DeepSeek-R1-0528 įrankio iškvietimo galimybę per „LobeChat“. Be to, DeepSeek-R1-0528 buvo atnaujintas ir patobulintas tokiose srityse kaip front-end kodo generavimas ir vaidmenų žaidimai.

Pavyzdyje parodyta moderni ir minimalistinė žodžių kortelės programa, sukurta naudojant HTML/CSS/JavaScript, iškviečiant DeepSeek-R1-0528 tinklalapyje.

Svarbiausi DeepSeek-R1-0528 atnaujinimo akcentai

  • Giluminio mąstymo galimybės, panašios į „Google“ modelius
  • Teksto generavimo optimizavimas: natūralesnis ir geriau suformatuotas
  • Unikalus samprotavimo stilius: ne tik greitesnis, bet ir griežtesnis
  • Ilgalaikio mąstymo palaikymas: vienos užduoties apdorojimo laikas gali siekti 30–60 minučių

Mes išbandėme naujos DeepSeek-R1 versijos galimybes. Nors tai yra „nedidelės versijos“ atnaujinimas, jo našumas buvo „epiškai“ pagerintas.

Ypač kalbant apie programavimo galimybes, atrodo, kad jis pralenkė arba prilygsta „Claude 4“ ir „Gemini 2.5 Pro“. Visos užduotys yra „vienkartinės“, nereikalauja jokių pakeitimų! Be to, ją galima paleisti tiesiai interneto naršyklėje, kad būtų pademonstruotos jos galimybės.

Aiškiai galima pajusti, kad naujosios DeepSeek-R1 versijos mąstymo procesas yra stabilesnis.

Galite užduoti deepseek-R1 bet kokį klausimą, į kurį norite sužinoti atsakymą, net jei jūsų klausimas yra šiek tiek beprasmis, jis vis tiek atidžiai apgalvos ir susistemins logiką. Primygtinai rekomenduojame išbandyti naujausią deepseek-R1 modelį.

API atnaujinimo informacija

API buvo atnaujinta, tačiau sąsaja ir iškvietimo metodai liko nepakitę. Naujoji R1 API vis dar palaiko modelio mąstymo proceso peržiūrą ir dabar taip pat palaiko funkcijų iškvietimą ir „JsonOutput“.

deepseek komanda pakoregavo parametro „max_tokens“ reikšmę naujoje R1 API: „max_tokens“ dabar riboja bendrą modelio vieno išvesties failo ilgį (įskaitant mąstymo procesą), kurio numatytoji reikšmė yra 32 KB, o maksimali – 64 KB. API naudotojams patariama nedelsiant pakoreguoti parametrą „max_tokens“, kad išvestis nebūtų per anksti sutrumpinta.

Išsamias instrukcijas, kaip naudoti R1 modelį, žr. deepseek R1 API vadovas:

Po šio R1 atnaujinimo modelio konteksto ilgis oficialioje svetainėje, mini programoje, programėlėje ir API išliks 64 Kb. Jei vartotojams reikia ilgesnio konteksto ilgio, jie gali iškviesti atvirojo kodo R1-0528 modelio versiją su 128 Kb konteksto ilgiu per kitas trečiųjų šalių platformas.

Atviras šaltinis

DeepSeek-R1-0528 naudoja tą patį bazinį modelį kaip ir ankstesnis DeepSeek-R1, patobulinti tik po mokymo taikomi metodai.

Diegiant privačiai, reikia atnaujinti tik kontrolinį tašką ir tokenizer_config.json (su įrankių iškvietimais susijusius pakeitimus). Modelio parametrai yra 685 KB (iš kurių 14 KB skirti MTP sluoksniui), o atvirojo kodo versijos konteksto ilgis yra 128 KB (žiniatinkliui, programėlėms ir API numatytas 64 KB konteksto ilgis).

Panašios žinutės

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *