Na stránkách Model DeepSeek R1 prošla drobnou aktualizací verze, přičemž aktuální verze je DeepSeek-R1-0528. Po vstupu na webovou stránku nebo do aplikace DeepSeek povolte v dialogovém rozhraní funkci „Hluboké myšlení“, abyste si mohli vyzkoušet nejnovější verzi.

Hmotnosti modelu DeepSeek-R1-0528 byly nahrány na HuggingFace.

Během posledních čtyř měsíců prošel DeepSeek-R1 superevolucí a dosáhl kódovacích schopností, které jsou nebývalé, a výrazně delší doby přemýšlení. I když to nemusí být... DeepSeek-R2 Jak všichni očekávali, vylepšení u modelu DeepSeek-R1-0528 jsou značná.

Podle zpráv je nový model trénován na DeepSeek-V3-0324 (s parametry 660B).

Nejprve se stručně podívejme na klíčové aktualizace v této verzi pomocí tabulky.

Dimenze schopnostídeepseek-R1Deepseek-R1-0528
Maximální kontext64k (API)128K (API) a ještě více
Generování kóduliveCodeBench close openai O1Blízko O3
Hloubka uvažováníSložité otázky vyžadují segmentované výzvy.Podporuje 30–60 minut hlubokého přemýšlení
Přirozenost jazykapoměrně zdlouhavýKompaktní struktura, zápis podobný O3
Náklady na užíváníOpen-source nebo API$0.5/MOpen-source nebo API$0.5/M

Zlepšené schopnosti hlubokého myšlení

Model DeepSeek-R1-0528 stále používá jako základ model DeepSeek V3 Base vydaný v prosinci 2024, ale během následného trénování byl investován větší výpočetní výkon, což výrazně posílilo hloubku myšlení a schopnosti modelu uvažovat.

Aktualizovaný model R1 dosáhl v řadě benchmarkových testů, včetně matematiky, programování a obecné logiky, špičkového výkonu mezi všemi domácími modely, a jeho celkový výkon je nyní srovnatelný s dalšími špičkovými mezinárodními modely, jako jsou o3 a Gemini-2.5-Pro.

  • Matematické a programátorské schopnosti: V matematické soutěži AIME 2025 se přesnost zlepšila ze 70% v předchozí verzi na 87,5%; schopnosti generování kódu v benchmarkovém testu LiveCodeBench jsou téměř srovnatelné s modelem OpenAI o3-high, dosažené skóre pass@1 je 73,3%.

Uživatelské testy ukazují, že nový DeepSeek-R1 je v programování prostě úžasný!

Expert na umělou inteligenci „karminski-dentist“ otestoval DeepSeek-R1-0528 a Claude 4 Sonnet s použitím stejného výzvy a zjistil, že:

Ať už jde o difúzní odraz světla na zdi, směr pohybu míče po dopadu nebo estetickou přitažlivost ovládacího panelu, R1 jasně překonává konkurenci.

Uživatel Haider nechal model vytvořit systém pro hodnocení slov. R1 krátce zvážil úkol a okamžitě vytvořil dva soubory – jeden pro kód a druhý pro funkční testování – které na první pokus běžely bezchybně.

Dříve byl o3 jediným modelem schopným tohoto úkolu. Nyní je R1 nepochybně nejlepším modelem pro tento úkol.

Všimněte si, že výkon R1 je tak pozoruhodný, protože dva soubory, které vrací, běží bezchybně na první pokus, bez jakýchkoli úprav nebo opakování, což je extrémně vzácné.

Dříve většina modelů buď končila v okrajových případech, příliš komplikovala řešení, nebo postrádala dostatečné pokrytí testy.

  • Hloubka inference: Doba myšlení u jednoho úkolu prodloužena na 30–60 minut s výrazně vylepšenými schopnostmi řešení složitých problémů (např. fyzikální simulace, vícekrokové logické hádanky).

Delší doba na přemýšlení se stala online nejdiskutovanější funkcí. Někteří uživatelé uvedli, že doba na přemýšlení R1 v reálných testech překročila 25 minut.

Navíc se zdá, že je to jediný model, který je schopen konzistentně správně odpovědět na otázku „Kolik je 9,9 mínus 9,11?“.

DeepSeek-R1-0528 dosáhl vynikajícího výkonu na všech datových sadách hodnocení

Ve srovnání s předchozí verzí R1 vykazuje nový model výrazné zlepšení v úlohách složitého uvažování. Například v testu AIME 2025 se míra přesnosti nového modelu zvýšila ze 70% na 87,5%.

Toto zlepšení je způsobeno větší hloubkou uvažování v modelu: v testovací sadě AIME 2025 starý model používal průměrně 12 tisíc tokenů na otázku, zatímco nový model používal průměrně 23 tisíc tokenů na otázku, což naznačuje detailnější a hlubší myšlení v procesu řešení problémů.

Tým deepseek navíc z DeepSeek-R1-0528 extrahoval logický řetězec a doladil bázi Qwen3-8B, což vedlo k DeepSeek-R1-0528-Qwen3-8B.

Tento model 8B se v matematickém testu AIME 2024 umístil na druhém místě hned za DeepSeek-R1-0528, když překonal Qwen3-8B (+10,0%) a dosáhl stejného výkonu jako Qwen3-235B.

Řetězce uvažování v rámci studie DeepSeek-R1-0528 budou mít významný dopad na akademický výzkum modelů uvažování a průmyslový vývoj modelů v malém měřítku.

Někteří uživatelé internetu chválili DeepSeek-R1 za to, že dokáže opravovat řetězce uvažování jako o3 a kreativně konstruovat světy jako Claude.

Je důležité poznamenat, že DeepSeek je model s otevřeným zdrojovým kódem, což představuje velké vítězství pro modely s otevřeným zdrojovým kódem.

Výsledky srovnání AIME 2024 pro modely s otevřeným zdrojovým kódem, jako například DeepSeek-R1-0528-Qwen3-8B

Další aktualizace funkcí

  • Zlepšení halucinací: Nová verze DeepSeek R1 má optimalizovaný výkon pro problémy s „halucinacemi“. Ve srovnání s předchozí verzí dosahuje aktualizovaný model snížení míry halucinací o 45–501 TP11T u úkolů, jako je přepisování a leštění, shrnutí a porozumění textu, a poskytuje tak přesnější a spolehlivější výsledky.
  • Kreativní psaní: Na základě předchozí verze R1 byl aktualizovaný model R1 dále optimalizován pro styly psaní esejů, románů a prózy, což mu umožňuje generovat delší a strukturálně ucelenější díla a zároveň prezentovat styl psaní, který je více v souladu s lidskými preferencemi.
  • Vyvolání nástrojů: DeepSeek-R1-0528 podporuje vyvolání nástrojů (vyvolání nástrojů není v thinkingu podporováno). Skóre hodnocení Tau-Bench aktuálního modelu je 53,5% pro letecké společnosti a 63,9% pro maloobchod, což je srovnatelné s OpenAI o1-high, ale stále zaostává za o3-High a Claude 4 Sonnet.

Příklad ukazuje shrnutí webového článku vygenerované pomocí nástroje pro vyvolání DeepSeek-R1-0528 přes LobeChat. Kromě toho byl DeepSeek-R1-0528 aktualizován a vylepšen v oblastech, jako je generování front-endového kódu a hraní rolí.

Příklad ukazuje moderní a minimalistickou aplikaci pro psaní slovních karet vyvinutou pomocí HTML/CSS/JavaScript voláním kódu DeepSeek-R1-0528 na webové stránce.

Klíčové informace o aktualizaci DeepSeek-R1-0528

  • Schopnosti hlubokého uvažování srovnatelné s modely Google
  • Optimalizace generování textu: přirozenější a lépe formátovaný
  • Unikátní styl uvažování: nejen rychlejší, ale i důslednější
  • Podpora dlouhodobého myšlení: doba zpracování jednoho úkolu může dosáhnout 30–60 minut

Schopnosti nové verze DeepSeek-R1 jsme otestovali. Přestože se jedná o „minoverzi“, její výkon byl „epicky“ vylepšen.

Zejména co se týče programovacích možností, zdá se, že překonal nebo se vyrovnal Claude 4 a Gemini 2.5 Pro. Všechny pokyny jsou „jednorázové“ a nevyžadují žádné úpravy! A pro demonstraci jeho možností lze program spustit přímo ve webovém prohlížeči.

Je zřejmé, že myšlenkový proces nové verze DeepSeek-R1 je stabilnější.

Můžete se zeptat deepseek-R1 na cokoli, na co chcete znát odpověď. I když je vaše otázka trochu nesmyslná, systém ji pečlivě promyslí a uspořádá logiku. Důrazně doporučujeme vyzkoušet nejnovější model deepseek-R1.

Informace o aktualizaci API

API bylo aktualizováno, ale rozhraní a metody volání zůstávají nezměněny. Nové R1 API stále podporuje zobrazení myšlenkového procesu modelu a nyní také podporuje volání funkcí a JsonOutput.

Tým deepseek upravil význam parametru max_tokens v novém R1 API: max_tokens nyní omezuje celkovou délku jediného výstupu modelu (včetně myšlenkového procesu) s výchozí hodnotou 32K a maximem 64K. Uživatelům API se doporučuje, aby parametr max_tokens neprodleně upravili, aby zabránili předčasnému zkrácení výstupu.

Podrobné pokyny k použití modelu R1 naleznete v Průvodce API deepseek R1:

Po této aktualizaci R1 zůstane délka kontextu modelu na oficiálních webových stránkách, v mini programu, aplikaci a API 64 kB. Pokud uživatelé potřebují delší délku kontextu, mohou volat open-source verzi modelu R1-0528 s délkou kontextu 128 kB prostřednictvím platforem třetích stran.

Otevřený zdroj

DeepSeek-R1-0528 používá stejný základní model jako předchozí DeepSeek-R1, s vylepšeními pouze v metodách post-trénování.

Při soukromém nasazení je třeba aktualizovat pouze kontrolní bod a tokenizer_config.json (změny související s voláním nástrojů). Parametry modelu jsou 685B (z toho 14B pro vrstvu MTP) a verze s otevřeným zdrojovým kódem má délku kontextu 128K (pro web, aplikaci a API je k dispozici délka kontextu 64K).

Podobné příspěvky

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *