DeepSeek R1 laimėjo kūrybinio apsakymo rašymo lyginamojo testo čempionatą, sėkmingai aplenkdamas ankstesnį dominuojantį žaidėją Claude 3.5 Sonnet!

Lyginamasis testas

Tyrėjo Lecho Mazuro sukurtas lyginamasis testas nėra įprastas rašymo konkursas.

Kiekvienas dirbtinio intelekto modelis turėjo sukurti 500 trumpų istorijų, o kiekvienoje istorijoje turėjo būti sumaniai panaudota 10 atsitiktinai priskirtų elementų. Tai buvo sudėtinga atviro tipo rašymo užduotis dirbtiniam intelektui, kuri ne tik reikalavo išbaigto siužeto, bet ir užtikrino, kad visi priskirti elementai būtų natūraliai integruoti.

Vertinimo metodas

Šiame lyginamajame teste naudojama unikali vertinimo sistema: šeši geriausi kalbos modeliai veikia kaip teisėjai ir vertina įvairius istorijos aspektus. Kitaip tariant, dirbtinio intelekto pramonės lyderiai vertina patį dirbtinį intelektą, o tai apskritai yra gana sąžiningas ir sistemingas vertinimo standartas.

Testo turinys

Pirmiau pateiktoje diagramoje parodyta kūrybinio rašymo kontrolinio testo rezultatų koreliacijos analizė. DeepSeek koreliacijos koeficientas su kitais pagrindiniais modeliais (Claude, GPT-4o, Gemini ir Grok) viršija 0,93, o tai rodo, kad vertinant kūrybinio rašymo kokybę jo vertinimo kriterijai labai sutampa su kitais geriausiais modeliais, o tai netiesiogiai patvirtina jo patikimumą šiame teste.

Aukščiau pateiktoje diagramoje pateikiami kūrybinio apsakymo rašymo testo rezultatai. Kiekvienas dirbtinio intelekto modelis turėjo parašyti 500 istorijų, kurių kiekvienoje turi būti 10 nurodytų atsitiktinių elementų. Diagramoje esantys taškai rodo kiekvieno dalyvaujančio dirbtinio intelekto modelio skirtingų vertinimo modelių (žymimi skirtingomis spalvomis) rezultatų pasiskirstymą.

Teste, DeepSeek (tamsiai mėlyni taškai) rezultatai buvo geri - dauguma jo taškų sutelkta viršutinėje diagramos pusėje ir gana koncentruotai, o tai rodo stabilų ir aukštą kūrybinio rašymo gebėjimų lygį.

Dėl šių puikių rezultatų jis sėkmingai aplenkė ankstesnį čempioną "Claude 3.5 Sonnet" ir tapo naujuoju lyginamųjų testų lyderiu.

Šioje diagramoje kiekviena eilutė reiškia dirbtinio intelekto modelį, o kiekvienas stulpelis - vertinimo dimensiją (pvz., apibūdinimą, siužeto nuoseklumą ir pan.). DeepSeek yra viršutiniame diagramos viduryje, o bendras oranžinis-geltonas atspalvis rodo, kad jis pasiekė puikių rezultatų daugumoje vertinimo dimensijų. Visų pirma jis pasiekė aukštus, beveik 8 balų, įvertinimus pagrindiniuose matmenyse: atlikimo (Q6), charakterizavimo (TA) ir siužeto vystymo (TJ). Nors pagal atskirus matmenis jis gal ir nėra ryškiausiai geltonas, tačiau akivaizdžių trūkumų neturi.

Kaip matote diagramoje, DeepSeek istorijos balai dažniausiai pasiskirstę tarp 7 ir 9 balų, ir pasiskirstymas yra gana koncentruotas. Įdomu tai, kad jo tendencijos linija yra beveik horizontali, o tai rodo, kad DeepSeek istorijos kokybė nėra glaudžiai susijusi su istorijos ilgiu. Kitaip tariant, nesvarbu, ar rašoma ilga, ar trumpa istorija, DeepSeek gali išlaikyti nuolat aukštą produkcijos kokybę. Tai rodo, kad DeepSeek kurdamas daugiau dėmesio skiria kokybei nei kiekybei ir gali išlaikyti puikius rezultatus skirtingos trukmės pasakojimuose.

Kodėl DeepSeek R1 laimėti?

Sprendžiant iš bandymų rezultatų, DeepSeek R1 veikė nuostabiai:

  • Išsamios istorijos integravimo galimybės: R1 pasižymėjo nuostabiu lankstumu ir kūrybiškumu, kai buvo naudojami įvairūs istorijos elementų deriniai.
  • Stabili išvesties kokybė: Sprendžiant iš balų pasiskirstymo diagramos, R1 ne tik surinko aukštą vidutinį balų skaičių, bet ir pasižymėjo stabiliais rezultatais ir mažesniais svyravimais.
  • Puikūs kūrybiniai rezultatai: Šiame lyginamajame teste "R1" sukurtos istorijos buvo įvertintos tarp trijų geriausiųjų, o tai įrodo, kad jis turi puikių kūrybinio rašymo gebėjimų.

Kaip pasirodė kiti dalyviai?

Be įdomios DeepSeek R1 ir "Claude 3.5 Sonnet" dvikovos, verta atkreipti dėmesį ir į kitų modelių našumą:

  • "Gemini" serija gerai pasirodė
  • Šiame teste "Llama 3.x" serija šiek tiek sunkiai sekėsi
  • "o3-mini" nepasiekė gerų rezultatų - užėmė 22 vietą

Pagaliau

"DeepSeek R1" proveržis šiame teste parodė mums neribotas dirbtinio intelekto galimybes kūrybiškumo srityje. Nors dirbtinio intelekto kūryba vis dar yra nuolatinio tobulėjimo kelyje, dėl tokių rezultatų jau dabar esame kupini lūkesčių dėl ateities.

Tie, kurie nori sužinoti daugiau apie testo detales, gali apsilankyti Lecho Mazuro "GitHub" svetainėje, kur rasite visus duomenis ir geriausių istorijų pavyzdžius. Laukime daugiau proveržių dirbtinio intelekto kūrybinio rašymo srityje kartu!

Panašios žinutės

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *