DeepSeek R1 osvojio je prvenstvo u referentnom testu kreativnog pisanja kratkih priča, uspješno nadmašivši prethodnog dominantnog igrača Claude 3.5 Sonnet!

Benchmark test

Benchmark test koji je osmislio istraživač Lech Mazur nije vaše prosječno natjecanje u pisanju.

Svaki AI model trebao je dovršiti 500 kratkih priča, a svaka je priča morala pametno uključiti 10 nasumično dodijeljenih elemenata. Ovo je bio izazovan zadatak pisanja otvorenog tipa za AI, koji ne samo da je zahtijevao kompletnu priču, već je također osigurao da su svi dodijeljeni elementi prirodno integrirani

Metoda ocjenjivanja

Ovaj referentni test koristi jedinstveni sustav bodovanja: šest vrhunskih jezičnih modela djeluju kao suci, ocjenjujući različite aspekte priče. Drugim riječima, čelnici industrije umjetne inteligencije ocjenjuju samu umjetnu inteligenciju, koja općenito daje relativno pravedan i sustavan standard ocjenjivanja.

Testni sadržaj

Gornji grafikon prikazuje analizu korelacije bodova u referentnom testu kreativnog pisanja. DeepSeek ima korelacijski koeficijent od preko 0,93 s drugim mainstream modelima (Claude, GPT-4o, Gemini i Grok), što ukazuje na to da ima vrlo dosljedne kriterije prosudbe s drugim vrhunskim modelima kada ocjenjuje kvalitetu kreativnog pisanja, što neizravno potvrđuje njegovu pouzdanost u ovom test.

Gornji grafikon prikazuje rezultate referentnog testa kreativnog pisanja kratke priče. Svaki AI model trebao je napisati 500 priča, od kojih svaka mora sadržavati 10 određenih nasumičnih elemenata. Točke na grafikonu pokazuju distribuciju rezultata svakog modela umjetne inteligencije koji sudjeluje za različite modele bodovanja (predstavljene različitim bojama).

u testu, DubokoSeek (tamnoplave točke) pokazao se dobro, s većinom bodova koncentriranih u gornjoj polovici grafikona i relativno koncentriranih, pokazujući stabilnu i visoku razinu sposobnosti kreativnog pisanja.

Ova izvanredna izvedba omogućila mu je da uspješno nadmaši prethodnog prvaka, Claude 3.5 Sonnet, i postane novi vodeći u benchmark testu.

Na ovom grafikonu svaki redak predstavlja model umjetne inteligencije, a svaki stupac predstavlja dimenziju evaluacije (kao što je karakterizacija, koherencija crteža itd.). DeepSeek nalazi se u gornjem srednjem dijelu grafikona, s ukupnom narančasto-žutom nijansom, što ukazuje da je postigao izvrsne rezultate u većini dimenzija ocjenjivanja. Konkretno, postigao je visoke rezultate od gotovo 8 bodova u ključnim dimenzijama izvedbe (Q6), karakterizacije (TA) i razvoja radnje (TJ). Iako možda nije najsjajnija žuta u pojedinim dimenzijama, nema očitih nedostataka.

Kao što možete vidjeti na grafikonu, rezultati priče DeepSeek uglavnom su raspoređeni između 7 i 9 bodova, a distribucija je relativno koncentrirana. Zanimljivo je da je njegova linija trenda gotovo vodoravna, što ukazuje da kvaliteta priče DeepSeek nije usko povezana s duljinom priče. Drugim riječima, bilo da se radi o pisanju duge ili kratke priče, DeepSeek može održavati konzistentno visoku kvalitetu ispisa. Ovo pokazuje da DeepSeek se više fokusira na kvalitetu nego na kvantitetu pri stvaranju i može održati izvrsne performanse u pričama različite dužine.

Zašto jesam DeepSeek R1 pobjeda?

Sudeći po rezultatima testa, DeepSeek R1 je imao nevjerojatne rezultate:

  • Sveobuhvatne mogućnosti integracije priče: R1 je pokazao nevjerojatnu fleksibilnost i kreativnost u radu s različitim kombinacijama elemenata priče.
  • Stabilna kvaliteta ispisa: Sudeći prema grafikonu distribucije rezultata, R1 nije imao samo visoku prosječnu ocjenu, već i stabilnu izvedbu s manje fluktuacija.
  • Izvanredna kreativna izvedba: U ovom referentnom testu, priče koje je stvorio R1 ocijenjene su među tri najbolje u ukupnom poretku, što dokazuje njegovu izvanrednu sposobnost kreativnog pisanja.

Kako su se pokazali ostali natjecatelji?

Osim uzbudljivog obračuna između DeepSeek R1 i Claude 3.5 Sonnet, valja istaknuti i performanse drugih modela:

  • Serija Gemini pokazala se dobro
  • Serija Llama 3.x se malo mučila u ovom testu
  • O3-mini se nije dobro pokazao, zauzevši 22. mjesto

Konačno

Proboj DeepSeek R1-a u ovom testu pokazao nam je beskrajne mogućnosti umjetne inteligencije u polju kreativnosti. Iako je stvaranje umjetne inteligencije još uvijek na putu stalnog poboljšanja, takvi rezultati već su nas učinili punim očekivanjima za budućnost.

Za one koji žele saznati više o detaljima testa, možete posjetiti GitHub Lecha Mazura za sve podatke i primjere najboljih priča. Radujmo se zajedno novim otkrićima u kreativnom pisanju umjetne inteligencije!

Slični postovi

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)