The DeepSeek R1-malli on kokenut pienen versiopäivityksen, ja nykyinen versio on DeepSeek-R1-0528. Kun siirryt DeepSeek-verkkosivulle tai -sovellukseen, ota käyttöön ”Deep Thinking” -ominaisuus valintaikkunassa kokeaksesi uusimman version.

DeepSeek-R1-0528-mallin painot on ladattu HuggingFaceen

Viimeisten neljän kuukauden aikana DeepSeek-R1 on kokenut superkehityksen saavuttaen ennennäkemättömän koodauskyvyn ja huomattavasti pidemmän ajatteluajan. Vaikka se ei ehkä olekaan paras DeepSeek-R2 Kuten kaikki odottivat, DeepSeek-R1-0528-mallin parannukset ovat huomattavia.

Raporttien mukaan uusi malli on koulutettu DeepSeek-V3-0324:llä (660B-parametreilla).

Katsotaanpa ensin lyhyesti tämän julkaisun tärkeimpiä päivityksiä taulukon avulla.

Ominaisuusulottuvuusdeepseek-R1Deepseek-R1-0528
Maksimaalinen konteksti64k (API)128 kt (API)vielä enemmän
Koodin generointiliveCodeBench sulkeutuu avattaessa O1Lähellä O3:a
Syvällinen perusteluMonimutkaiset kysymykset vaativat segmentoituja aiheita.Tukee 30–60 minuuttia syvällistä ajattelua
Kielen luonnollisuusmelko pitkäKompakti rakenne, kirjoittaa samalla tavalla kuin O3
KäyttökustannuksetAvoimen lähdekoodin tai API$0.5/MAvoimen lähdekoodin tai API$0.5/M

Parannetut syvällisen ajattelun kyvyt

DeepSeek-R1-0528 käyttää edelleen joulukuussa 2024 julkaistua DeepSeek V3 -perusmallia pohjanaan, mutta jälkikoulutuksen aikana siihen investoitiin enemmän laskentatehoa, mikä paransi merkittävästi mallin ajattelun syvyyttä ja päättelykykyä.

Päivitetty R1-malli on saavuttanut huippusuorituskyvyn kaikkien kotimaisten mallien joukossa useissa vertailuarvosteluissa, mukaan lukien matematiikka, ohjelmointi ja yleinen logiikka, ja sen kokonaissuorituskyky on nyt samalla tasolla muiden kansainvälisten huippumallien, kuten o3:n ja Gemini-2.5-Pron, kanssa.

  • Matematiikan ja ohjelmoinnin osaaminen: AIME 2025 -matematiikkakilpailussa tarkkuus parani edellisen version 70%:stä 87,5%:hen; koodinluontiominaisuudet LiveCodeBench-vertailutestissä ovat lähes samalla tasolla kuin OpenAI:n o3-high-mallissa, ja pass@1-pistemäärän saavuttaminen on 73,3%.

Käyttäjätestit osoittavat, että uusi DeepSeek-R1 on yksinkertaisesti hämmästyttävä ohjelmoinnissa!

Tekoälyasiantuntija ”karminski-dentist” testasi DeepSeek-R1-0528:aa ja Claude 4 Sonnetia samalla kehotteella ja havaitsi, että:

Olipa kyseessä sitten valon hajaheijastus seinällä, pallon liikkeen suunta iskun jälkeen tai ohjauspaneelin esteettinen vetovoima, R1 päihittää kilpailijansa selvästi.

Käyttäjä Haider. pyysi mallia rakentamaan sanapisteytysjärjestelmän. R1 mietti tehtävää lyhyesti ja tuotti heti kaksi tiedostoa – toisen koodia ja toisen työtestausta varten – jotka toimivat moitteettomasti ensimmäisellä yrityksellä.

Aiemmin o3 oli ainoa malli, joka kykeni suorittamaan tämän tehtävän. Nyt R1 on epäilemättä paras malli tähän tehtävään.

Huomaa, että R1:n suorituskyky on niin merkittävä, koska sen palauttamat kaksi tiedostoa toimivat virheettömästi ensimmäisellä yrityksellä ilman muokkausta tai uudelleenyrityksiä, mikä on erittäin harvinaista.

Aiemmin useimmat mallit joko päättyivät reunatapauksiin, monimutkaistuttivat ratkaisua liikaa tai niiltä puuttui riittävä testikattavuus.

  • Päättelykyky: Yhden tehtävän ajatteluaika pidentyy 30–60 minuuttiin, ja ongelmanratkaisukyky monimutkaisissa ongelmissa (esim. fysiikan simulaatiot, monivaiheiset loogiset pulmat) paranee merkittävästi.

Pidemmästä ajatteluajasta on tullut verkossa eniten puhuttu ominaisuus. Jotkut käyttäjät kertoivat, että R1:n ajatteluaika ylitti 25 minuuttia tosielämän testeissä.

Lisäksi tämä näyttää olevan ainoa malli, joka pystyy johdonmukaisesti vastaamaan oikein kysymykseen "Mikä on 9,9 miinus 9,11?"

DeepSeek-R1-0528 saavutti erinomaisen suorituskyvyn kaikissa arviointiaineistoissa

Verrattuna R1:n edelliseen versioon, uusi malli osoittaa merkittäviä parannuksia monimutkaisissa päättelytehtävissä. Esimerkiksi AIME 2025 -testissä uuden mallin tarkkuusaste nousi 70%:stä 87,5%:hen.

Tämä parannus johtuu mallin parantuneesta päättelyn syvyydestä: AIME 2025 -testijoukossa vanha malli käytti keskimäärin 12 000 tokenia kysymystä kohden, kun taas uusi malli käytti keskimäärin 23 000 tokenia kysymystä kohden, mikä viittaa yksityiskohtaisempaan ja syvällisempään ajatteluun ongelmanratkaisuprosessissa.

Lisäksi deepseek-tiimi tiivisti päättelyketjun DeepSeek-R1-0528:sta ja hienosääti Qwen3-8B-pohjaa, jolloin tuloksena oli DeepSeek-R1-0528-Qwen3-8B.

Tämä 8B-malli sijoittui toiseksi vain DeepSeek-R1-0528:n jälkeen AIME 2024 -matematiikkatestissä, päihittäen Qwen3-8B:n (+10.0%) ja vastaten Qwen3-235B:tä.

DeepSeek-R1-0528:n päättelyketjuilla on merkittäviä vaikutuksia akateemiseen tutkimukseen päättelymalleista ja pienimuotoisten mallien teollisesta kehityksestä.

Jotkut netizensit kiittivät DeepSeek-R1:tä kyvystä korjata o3:n kaltaisia päättelyketjuja ja rakentaa luovasti Clauden kaltaisia maailmoja.

On tärkeää huomata, että DeepSeek on avoimen lähdekoodin malli, mikä on merkittävä voitto avoimen lähdekoodin malleille.

AIME 2024 -vertailutulokset avoimen lähdekoodin malleille, kuten DeepSeek-R1-0528-Qwen3-8B

Muut ominaisuuspäivitykset

  • Hallusinaatioiden parannus: Uudessa DeepSeek R1-versiossa on optimoitu suorituskyky "hallusinaatio"-ongelmien osalta. Edelliseen versioon verrattuna päivitetty malli saavuttaa 45–50%:n vähennyksen hallusinaatioiden määrässä esimerkiksi uudelleenkirjoittamisessa ja viimeistelyssä, yhteenvedossa ja lukemisen ymmärtämisessä, mikä tuottaa tarkempia ja luotettavampia tuloksia.
  • Luova kirjoittaminen: Edelliseen R1-versioon perustuvaa päivitettyä R1-mallia on optimoitu edelleen esseiden, romaanien ja proosan kirjoitustyyleille, minkä ansiosta se voi tuottaa pidempiä ja rakenteellisesti täydellisempiä teoksia samalla, kun se esittelee kirjoitustyylin, joka on paremmin linjassa ihmisten mieltymysten kanssa.
  • Työkalujen kutsuminen: DeepSeek-R1-0528 tukee työkalujen kutsumista (työkalujen kutsumista ei tueta ajattelussa). Nykyisen mallin Tau-Bench-arviointipisteet ovat 53,5% lentoyhtiöille ja 63,9% vähittäiskaupalle, mikä on verrattavissa OpenAI o1-high -tasoon, mutta jää silti jälkeen o3-High-tasosta ja Claude 4 Sonnet -tasosta.

Esimerkissä on verkkoartikkelin yhteenveto, joka on luotu LobeChatin kautta DeepSeek-R1-0528-työkalun kutsumisominaisuudella. Lisäksi DeepSeek-R1-0528-työkalua on päivitetty ja parannettu esimerkiksi käyttöliittymäkoodin luonnin ja roolipelaamisen osalta.

Esimerkissä on esitetty moderni ja minimalistinen sanakorttisovellus, joka on kehitetty HTML/CSS/JavaScript-kielillä kutsumalla DeepSeek-R1-0528-komentoa verkkosivulla.

DeepSeek-R1-0528-päivityksen tärkeimmät kohokohdat

  • Syvällisen päättelyn kyvyt, jotka ovat verrattavissa Googlen malleihin
  • Tekstin luonnin optimointi: luonnollisempi ja paremmin muotoiltu
  • Ainutlaatuinen päättelytyyli: ei vain nopeampi, vaan myös täsmällisempi
  • Pitkän aikavälin ajattelun tuki: yhden tehtävän käsittelyaika voi olla 30–60 minuuttia

Olemme testanneet uuden DeepSeek-R1-version ominaisuuksia. Vaikka kyseessä onkin "pieni versio" -päivitys, sen suorituskykyä on parannettu "eeppisesti".

Erityisesti ohjelmointiominaisuuksien osalta se tuntuu ylittäneen Claude 4:n ja Gemini 2.5 Pron tai olevan niiden tasolla. Kaikki kehotteet ovat "kertakäyttöisiä", eivätkä vaadi muutoksia! Ja sitä voidaan käyttää suoraan verkkoselaimessa ominaisuuksiensa demonstroimiseksi.

Uuden DeepSeek-R1-version ajatteluprosessin voi selvästi tuntea vakaammaksi.

Voit kysyä deepseek-R1:ltä minkä tahansa kysymyksen, johon haluat tietää vastauksen. Vaikka kysymyksesi olisi hieman järjetön, se ajattelee silti asiaa huolellisesti ja jäsentää loogisen vastauksen. Suosittelemme lämpimästi kokeilemaan uusinta deepseek-R1-mallia.

API-päivitystiedot

API on päivitetty, mutta käyttöliittymä ja kutsumetodit pysyvät ennallaan. Uusi R1-API tukee edelleen mallin ajatteluprosessin tarkastelua ja tukee nyt myös funktiokutsuja ja JsonOutput-funktioita.

deepseek-tiimi on muuttanut max_tokens-parametrin merkitystä uudessa R1-API:ssa: max_tokens rajoittaa nyt mallin yksittäisen tulosteen kokonaispituutta (mukaan lukien ajatteluprosessi) oletusarvolla 32 kt ja enimmäispituudella 64 kt. API-käyttäjiä kehotetaan muuttamaan max_tokens-parametria viipymättä, jotta tuloste ei katkea ennenaikaisesti.

Tarkemmat ohjeet R1-mallin käyttöön löytyvät kohdasta deepseek R1-rajapintaopas:

Tämän R1-päivityksen jälkeen mallikontekstin pituus virallisella verkkosivustolla, miniohjelmassa, sovelluksessa ja API:ssa pysyy 64 kt:ssa. Jos käyttäjät tarvitsevat pidemmän kontekstin pituuden, he voivat kutsua R1-0528-mallin avoimen lähdekoodin versiota, jonka kontekstin pituus on 128 kt, muiden kolmannen osapuolen alustojen kautta.

Avoin lähdekoodi

DeepSeek-R1-0528 käyttää samaa perusmallia kuin edellinen DeepSeek-R1, ja ainoastaan jälkikoulutusmenetelmiin on tehty parannuksia.

Yksityisessä käyttöönotossa vain tarkistuspiste ja tokenizer_config.json (työkalukutsuihin liittyvät muutokset) tarvitsee päivittää. Malliparametrit ovat 685 kt (josta 14 kt on MTP-kerrosta varten), ja avoimen lähdekoodin version kontekstin pituus on 128 kt (64 kt kontekstin pituus on verkko-, sovellus- ja API-versioille).

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *