DeepSeek R1 užėmė pirmąją vietą kūrybinio rašymo teste, o o3 mini buvo dar prastesnis nei o1 mini!

DeepSeek R1 laimėjo kūrybinio apsakymo rašymo lyginamojo testo čempionatą, sėkmingai aplenkdamas ankstesnį dominuojantį žaidėją Claude 3.5 Sonnet!

Turinys

Lyginamasis testas

Tyrėjo Lecho Mazuro sukurtas lyginamasis testas nėra įprastas rašymo konkursas.

Kiekvienas dirbtinio intelekto modelis turėjo sukurti 500 trumpų istorijų, o kiekvienoje istorijoje turėjo būti sumaniai panaudota 10 atsitiktinai priskirtų elementų. Tai buvo sudėtinga atviro tipo rašymo užduotis dirbtiniam intelektui, kuri ne tik reikalavo išbaigto siužeto, bet ir užtikrino, kad visi priskirti elementai būtų natūraliai integruoti.

Vertinimo metodas

Šiame lyginamajame teste naudojama unikali vertinimo sistema: šeši geriausi kalbos modeliai veikia kaip teisėjai ir vertina įvairius istorijos aspektus. Kitaip tariant, dirbtinio intelekto pramonės lyderiai vertina patį dirbtinį intelektą, o tai apskritai yra gana sąžiningas ir sistemingas vertinimo standartas.

Testo turinys

Pirmiau pateiktoje diagramoje parodyta kūrybinio rašymo kontrolinio testo rezultatų koreliacijos analizė. DeepSeek koreliacijos koeficientas su kitais pagrindiniais modeliais (Claude, GPT-4o, Gemini ir Grok) viršija 0,93, o tai rodo, kad vertinant kūrybinio rašymo kokybę jo vertinimo kriterijai labai sutampa su kitais geriausiais modeliais, o tai netiesiogiai patvirtina jo patikimumą šiame teste.

Aukščiau pateiktoje diagramoje pateikiami kūrybinio apsakymo rašymo testo rezultatai. Kiekvienas dirbtinio intelekto modelis turėjo parašyti 500 istorijų, kurių kiekvienoje turi būti 10 nurodytų atsitiktinių elementų. Diagramoje esantys taškai rodo kiekvieno dalyvaujančio dirbtinio intelekto modelio skirtingų vertinimo modelių (žymimi skirtingomis spalvomis) rezultatų pasiskirstymą.

Teste, Deep S eek (tamsiai mėlyni taškai) rezultatai buvo geri - dauguma jo taškų sutelkta viršutinėje diagramos pusėje ir gana koncentruotai, o tai rodo stabilų ir aukštą kūrybinio rašymo gebėjimų lygį.

Dėl šių puikių rezultatų jis sėkmingai aplenkė ankstesnį čempioną "Claude 3.5 Sonnet" ir tapo naujuoju lyginamųjų testų lyderiu.

Šioje diagramoje kiekviena eilutė reiškia dirbtinio intelekto modelį, o kiekvienas stulpelis - vertinimo dimensiją (pvz., apibūdinimą, siužeto nuoseklumą ir pan.). DeepSeek yra viršutiniame diagramos viduryje, o bendras oranžinis-geltonas atspalvis rodo, kad jis pasiekė puikių rezultatų daugumoje vertinimo dimensijų. Visų pirma jis pasiekė aukštus, beveik 8 balų, įvertinimus pagrindiniuose matmenyse: atlikimo (Q6), charakterizavimo (TA) ir siužeto vystymo (TJ). Nors pagal atskirus matmenis jis gal ir nėra ryškiausiai geltonas, tačiau akivaizdžių trūkumų neturi.

Kaip matote diagramoje, DeepSeek istorijos balai dažniausiai pasiskirstę tarp 7 ir 9 balų, ir pasiskirstymas yra gana koncentruotas. Įdomu tai, kad jo tendencijos linija yra beveik horizontali, o tai rodo, kad DeepSeek istorijos kokybė nėra glaudžiai susijusi su istorijos ilgiu. Kitaip tariant, nesvarbu, ar rašoma ilga, ar trumpa istorija, DeepSeek gali išlaikyti nuolat aukštą produkcijos kokybę. Tai rodo, kad DeepSeek kurdamas daugiau dėmesio skiria kokybei nei kiekybei ir gali išlaikyti puikius rezultatus skirtingos trukmės pasakojimuose.

Kodėl DeepSeek R1 laimėti?

Sprendžiant iš bandymų rezultatų, DeepSeek R1 veikė nuostabiai:

Išsamios istorijos integravimo galimybės: R1 pasižymėjo nuostabiu lankstumu ir kūrybiškumu, kai buvo naudojami įvairūs istorijos elementų deriniai.
Stabili išvesties kokybė: Sprendžiant iš balų pasiskirstymo diagramos, R1 ne tik surinko aukštą vidutinį balų skaičių, bet ir pasižymėjo stabiliais rezultatais ir mažesniais svyravimais.
Puikūs kūrybiniai rezultatai: Šiame lyginamajame teste "R1" sukurtos istorijos buvo įvertintos tarp trijų geriausiųjų, o tai įrodo, kad jis turi puikių kūrybinio rašymo gebėjimų.

Kaip pasirodė kiti dalyviai?

Be įdomios DeepSeek R1 ir "Claude 3.5 Sonnet" dvikovos, verta atkreipti dėmesį ir į kitų modelių našumą:

"Gemini" serija gerai pasirodė
Šiame teste "Llama 3.x" serija šiek tiek sunkiai sekėsi
"o3-mini" nepasiekė gerų rezultatų - užėmė 22 vietą

Pagaliau

"DeepSeek R1" proveržis šiame teste parodė mums neribotas dirbtinio intelekto galimybes kūrybiškumo srityje. Nors dirbtinio intelekto kūryba vis dar yra nuolatinio tobulėjimo kelyje, dėl tokių rezultatų jau dabar esame kupini lūkesčių dėl ateities.

Tie, kurie nori sužinoti daugiau apie testo detales, gali apsilankyti Lecho Mazuro "GitHub" svetainėje, kur rasite visus duomenis ir geriausių istorijų pavyzdžius. Laukime daugiau proveržių dirbtinio intelekto kūrybinio rašymo srityje kartu!

Panašios žinutės

Uncategorized

Išsamus "OpenAI" naujai išleistų "o3-mini" ir DeepSeek R1 palyginimas

PagalZddeepseeker vasario 1 d., 2025 m.vasario 1 d., 2025 m.

"OpenAI" išleido naujausią išvadų modelį "o3-mini", optimizuotą tokioms sritims kaip gamtos mokslai, matematika ir programavimas, užtikrinantį greitesnį atsaką, didesnį tikslumą ir mažesnes sąnaudas. Palyginti su savo pirmtaku o1-mini, o3-mini gerokai pagerino išvadų darymo galimybes, ypač sprendžiant sudėtingus uždavinius. Testuotojai pirmenybę teikia o3-mini atsakymams 56%, o klaidų lygis sumažėjo...

Uncategorized

DeepSeek išleido savo šaltinio kodą, išsamų FlashMLA paaiškinimą

PagalZddeepseeker 2025 m. vasario 24 d2025 m. vasario 24 d

Praėjusią savaitę DeepSeek paskelbė, kad kitą savaitę atidarys penkis projektus: internautai sakė: „Šį kartą OpenAI tikrai čia“. Ką tik pasirodė pirmasis atvirojo kodo projektas, susijęs su išvadų pagreitinimu, FlashMLA: Atvirojo kodo projekto adresas: DeepSeek FlashMLA Jis buvo atviro kodo dvi valandas, o „Github“ jau turi 2,7 tūkst.+ žvaigždučių:…

Uncategorized

Pagrindiniai pasaulyje dirbtinio intelekto produktai orientuoti į analizę ir išsamias vartotojo patirties gaires (įskaitant DeepSeek ir GPT)

PagalZddeepseeker 2025 m. vasario 10 d2025 m. vasario 10 d

Funkcijų padėties nustatymas ir pagrindinių pranašumų analizė ChatGPT (OpenAI) – pasaulinis etalonas, skirtas visiems ChatGPT Techniniai genai: generuojantis AI, pagrįstas didelių modelių GPT serija, kurio pagrindiniai privalumai yra bendrieji pokalbio įgūdžiai ir loginis samprotavimas. Daugiakalbis apdorojimas: geriausiai veikia anglų kalba, nuolat tobulinama kinų kalba; tačiau rekomenduojame naudoti anglų kalbą, kad…

Uncategorized

Ali Qwen2.5-Max aplenkė DeepSeek-V3! Internautas: Kinijos AI sparčiai mažina atotrūkį

PagalZddeepseeker 2025 m. vasario 5 d2025 m. vasario 5 d

Ką tik į „Ali“ „Big Model Arena“ sąrašą buvo įtrauktas dar vienas vietinis modelis „Qwen2.5-Max“, kuris aplenkė DeepSeek-V3 ir užėmė septintąją vietą bendroje reitinge, surinkęs 1332 balus. Jis taip pat aplenkė tokius modelius kaip „Claude 3.5 Sonnet“ ir „Llama 3.1 405B“ vienu fellllswoop. Visų pirma, jis išsiskiria programavimu…

Uncategorized

Atskleista DeepSeek-R1 technologija: išardomi pagrindiniai popieriaus principai ir atskleistas raktas į proveržio modelio veikimą

PagalZddeepseeker 2025 m. vasario 9 d2025 m. vasario 9 d

Šiandien pasidalinsime DeepSeek R1, pavadinimas: DeepSeek-R1: Mokymosi gebėjimų skatinimas LLM per stiprinimo mokymąsi: LLM samprotavimo gebėjimų skatinimas per stiprinimo mokymąsi. Šiame straipsnyje pristatomi pirmosios kartos DeepSeek samprotavimo modeliai DeepSeek-R1-Zero ir DeepSeek-R1. DeepSeek-R1-Zero modelis buvo apmokytas naudojant didelio masto sustiprinimo mokymąsi (RL) be prižiūrimo tikslaus derinimo (SFT) kaip pradinio žingsnio,…

Uncategorized

Qwen2.5-max vs DeepSeek R1: išsamus modelių palyginimas: visa taikymo scenarijų analizė

PagalZddeepseeker 2025 m. vasario 14 d2025 m. vasario 14 d

Įvadas Šiandien didžiųjų kalbų modeliai (LLM) atlieka labai svarbų vaidmenį. 2025 m. pradžioje, suintensyvėjus konkurencijai dėl dirbtinio intelekto, Alibaba pristatė naują Qwen2.5-max AI modelį, o Hangdžou (Kinija) bendrovė DeepSeek pristatė R1 modelį, kuris yra LLM technologijos viršūnė. Deepseek R1 yra atvirojo kodo AI modelis, kuris pritraukė…

Lyginamasis testas

Vertinimo metodas

Testo turinys

Kodėl DeepSeek R1 laimėti?

Kaip pasirodė kiti dalyviai?

Pagaliau

Panašios žinutės

Parašykite komentarą Atšaukti atsakymą