A DeepSeek R1 modell kisebb verziófrissítésen esett át, a jelenlegi verzió az DeepSeek-R1-0528. Amikor belép az DeepSeek weboldalára vagy alkalmazásába, engedélyezze a „Mély gondolkodás” funkciót a párbeszédpanelen a legújabb verzió megtapasztalásához.

Az DeepSeek-R1-0528 modell súlyait feltöltöttük a HuggingFace-re.

Az elmúlt négy hónapban az DeepSeek-R1 szuper-evolúción ment keresztül, páratlan kódolási képességeket és jelentősen hosszabb gondolkodási időt elérve. Bár lehet, hogy nem ez a legjobb... DeepSeek-R2 amire mindenki számított, az DeepSeek-R1-0528 modell fejlesztései jelentősek.

A jelentések szerint az új modellt az DeepSeek-V3-0324-en (660B paraméterekkel) képezték ki.

Először is vessünk egy gyors pillantást a kiadás legfontosabb frissítéseire egy táblázat segítségével.

Képesség dimenziódeepseek-R1Deepseek-R1-0528
Maximális kontextus64k (API)128K (API) még több
KódgenerálásliveCodeBench bezárása megnyitása O1Közel az O3-hoz
Érvelési mélységAz összetett kérdések szegmentált promptokat igényelnek.30-60 percnyi mély gondolkodást támogat
Nyelv természetességemeglehetősen hosszúKompakt szerkezet, az O3-hoz hasonló írásmód
Használati költségNyílt forráskódú vagy API$0.5/MNyílt forráskódú vagy API$0.5/M

Fejlett mély gondolkodási képességek

Az DeepSeek-R1-0528 továbbra is a 2024 decemberében kiadott DeepSeek V3 alapmodellt használja alapként, de az utóképzés során nagyobb számítási teljesítményt fektettek be, jelentősen javítva a modell gondolkodási mélységét és érvelési képességeit.

A frissített R1 modell számos benchmark értékelésben – beleértve a matematikát, a programozást és az általános logikát – a hazai modellek közül a legjobb teljesítményt érte el, és összességében mostanra felvette a versenyt más nemzetközi csúcskategóriás modellekkel, mint például az o3 és a Gemini-2.5-Pro.

  • Matematikai és programozási képességek: Az AIME 2025 matematikai versenyen a pontosság az előző verzióban mért 70%-ről 87,5%-re javult; a LiveCodeBench benchmark tesztben a kódgenerálási képességek majdnem megegyeznek az OpenAI o3-high modelljével, a pass@1 pontszám elérése 73,3%.

A felhasználói tesztek azt mutatják, hogy az új DeepSeek-R1 programozása egyszerűen lenyűgöző!

„karminski-dentist” mesterséges intelligencia szakértő ugyanazzal a prompttal tesztelte az DeepSeek-R1-0528-at és a Claude 4 Sonnet-et, és a következőket találta:

Akár a falon visszaverődő fényről, akár a labda becsapódás utáni mozgásának irányáról, akár a vezérlőpanel esztétikai megjelenéséről van szó, az R1 egyértelműen felülmúlja a versenytársakat.

Haider felhasználó szópontozó rendszert építtetett a modellel. Az R1 röviden átgondolta a feladatot, és azonnal két fájlt készített – egyet a kódhoz, egy másikat pedig a munkateszteléshez –, amelyek elsőre hibátlanul futottak.

Korábban az O3 volt az egyetlen modell, amely képes volt elvégezni ezt a feladatot. Most kétségtelenül az R1 a legjobb modell erre a feladatra.

Megjegyzendő, hogy az R1 teljesítménye azért annyira figyelemre méltó, mert a visszaadott két fájl hibátlanul fut az első próbálkozásra, bármilyen szerkesztés vagy újrapróbálkozás nélkül, ami rendkívül ritka.

Korábban a legtöbb modell vagy szélsőséges esetekben fejeződött be, túlbonyolította a megoldást, vagy nem rendelkezett megfelelő tesztlefedettséggel.

  • Következtetési mélység: Az egyfeladatos gondolkodási idő 30–60 percre nőtt, jelentősen javuló problémamegoldó képességgel összetett kérdések esetén (pl. fizikai szimulációk, többlépéses logikai rejtvények).

A hosszabb gondolkodási idő lett az online térben a legtöbbet vitatott funkció. Egyes felhasználók arról számoltak be, hogy az R1 gondolkodási ideje a valós teszteken meghaladta a 25 percet.

Ezenkívül úgy tűnik, hogy ez az egyetlen modell, amely képes következetesen helyesen megválaszolni a „Mennyi 9,9 mínusz 9,11?” kérdést.

Az DeepSeek-R1-0528 kiváló teljesítményt nyújtott minden értékelési adathalmazon

Az R1 előző verziójához képest az új modell jelentős javulást mutat az összetett gondolkodási feladatokban. Például az AIME 2025 tesztben az új modell pontossági aránya 70%-ről 87,5%-re nőtt.

Ez a javulás a modell érvelésének mélyebb megértésének köszönhető: az AIME 2025 teszthalmazon a régi modell átlagosan 12 ezer tokent használt kérdésenként, míg az új modell átlagosan 23 ezer tokent kérdésenként, ami részletesebb és alaposabb gondolkodásra utal a problémamegoldási folyamatban.

Ezenkívül az deepseek csapat leszűrte az DeepSeek-R1-0528 logikai láncolatát, és finomhangolta a Qwen3-8B bázist, aminek eredményeként létrejött az DeepSeek-R1-0528-Qwen3-8B.

Ez a 8B modell a második helyen végzett az DeepSeek-R1-0528 után az AIME 2024 matematikai teszten, felülmúlva a Qwen3-8B-t (+10.0%) és megegyezve a Qwen3-235B-vel.

Az DeepSeek-R1-0528-as számú dokumentumban ismertetett érvelési láncok jelentős következményekkel járnak majd az érvelési modellek tudományos kutatására és a kisléptékű modellek ipari fejlesztésére nézve.

Néhány netező dicsérte az DeepSeek-R1-et, amiért képes volt korrigálni az olyan érvelési láncokat, mint az o3, és kreatívan olyan világokat konstruálni, mint Claude.

Fontos megjegyezni, hogy az DeepSeek egy nyílt forráskódú modell, ami jelentős győzelmet jelent a nyílt forráskódú modellek számára.

AIME 2024 összehasonlító eredmények nyílt forráskódú modellekhez, mint például az DeepSeek-R1-0528-Qwen3-8B

Egyéb képességfrissítések

  • Hallucinációk javítása: Az DeepSeek R1 új verziója optimalizált teljesítményt nyújtott a „hallucinációkkal” kapcsolatos problémák esetén. Az előző verzióhoz képest a frissített modell 45–50%-vel csökkenti a hallucinációk arányát olyan feladatokban, mint az átírás és polírozás, az összefoglalás és az olvasásértés, így pontosabb és megbízhatóbb eredményeket biztosít.
  • Kreatív írás: Az előző R1 verzió alapján a frissített R1 modellt tovább optimalizálták esszé-, regény- és prózaírási stílusokhoz, lehetővé téve hosszabb, szerkezetileg teljesebb művek létrehozását, miközben az írásstílus jobban igazodik az emberi preferenciákhoz.
  • Eszközhívás: Az DeepSeek-R1-0528 támogatja az eszközhívást (a gondolkodásban az eszközhívás nem támogatott). A jelenlegi modell Tau-Bench értékelési pontszáma 53,5% a légitársaságok és 63,9% a kiskereskedelem esetében, ami összehasonlítható az OpenAI o1-high modelljével, de még mindig elmarad az o3-High és a Claude 4 Sonnet modelljétől.

A példa egy webcikk-összefoglalót mutat be, amelyet az DeepSeek-R1-0528 eszköz meghívási képességével hoztak létre a LobeChat segítségével. Ezenkívül az DeepSeek-R1-0528 frissítésre és fejlesztésre került olyan területeken, mint a front-end kódgenerálás és a szerepjáték.

A példa egy modern és minimalista szókártya-alkalmazást mutat be, amelyet HTML/CSS/JavaScript használatával fejlesztettek ki az DeepSeek-R1-0528 meghívásával egy weboldalon.

Az DeepSeek-R1-0528 frissítés főbb jellemzői

  • A Google modelljeihez hasonló mélyreható gondolkodási képességek
  • Szöveggenerálás optimalizálása: természetesebb és jobban formázott
  • Egyedi érvelési stílus: nemcsak gyorsabb, de szigorúbb is
  • Hosszú távú gondolkodás támogatása: egyetlen feladat feldolgozási ideje elérheti a 30–60 percet

Az DeepSeek-R1 új verziójának képességeit teszteltük. Bár ez egy „kisebb verziójú” frissítés, a teljesítménye „jelentősen” javult.

Különösen a programozási képességek tekintetében úgy tűnik, hogy felülmúlta, vagy akár egy szinten is van a Claude 4-gyel és a Gemini 2.5 Pro-val. Minden prompt „egyszer használatos”, nem igényel módosítást! És közvetlenül egy webböngészőben is futtatható a képességei bemutatására.

Jól érezhető, hogy az új DeepSeek-R1 verzió gondolkodási folyamata stabilabb.

Bármilyen kérdést feltehetsz az deepseek-R1-nek, amire szeretnéd tudni a választ, még ha a kérdésed kissé értelmetlen is, akkor is alaposan átgondolja és logikusan rendszerezi a kérdést. Javasoljuk, hogy próbáld ki a legújabb deepseek-R1 modellt.

API frissítési információk

Az API frissült, de a felület és a hívási metódusok változatlanok maradtak. Az új R1 API továbbra is támogatja a modell gondolkodási folyamatának megtekintését, és mostantól a függvényhívásokat és a JsonOutputot is támogatja.

Az deepseek csapat módosította a max_tokens paraméter jelentését az új R1 API-ban: a max_tokens mostantól korlátozza a modell egyetlen kimenetének teljes hosszát (beleértve a gondolkodási folyamatot is), alapértelmezett értéke 32K és maximum 64K. Az API-felhasználóknak azt tanácsoljuk, hogy azonnal módosítsák a max_tokens paramétert, hogy megakadályozzák a kimenet idő előtti csonkolását.

Az R1 modell használatával kapcsolatos részletes utasításokért lásd a deepseek R1 API útmutató:

Az R1 frissítés után a hivatalos weboldalon, a miniprogramban, az alkalmazásban és az API-ban található modell kontextushossza továbbra is 64K marad. Ha a felhasználóknak hosszabb kontextushosszra van szükségük, az R1-0528 modell nyílt forráskódú, 128K kontextushosszú verzióját más, harmadik féltől származó platformokon keresztül hívhatják meg.

Nyílt forrás

Az DeepSeek-R1-0528 ugyanazt az alapmodellt használja, mint az előző DeepSeek-R1, csak az utólagos betanítási módszerekben történt fejlesztés.

Privát telepítés esetén csak az ellenőrzőpontot és a tokenizer_config.json fájlt (eszközhívásokkal kapcsolatos változtatások) kell frissíteni. A modell paraméterei 685 KB (ebből 14 KB az MTP réteghez tartozik), a nyílt forráskódú verzió kontextushossza pedig 128 KB (64 KB kontextushossz van megadva a webes, alkalmazás- és API-környezetekhez).

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük