
DeepSeek R1 voitti mestaruuden luovan novellin kirjoittamisen benchmark-testissä ohittaen menestyksekkäästi edellisen hallitsevan pelaajan Claude 3.5 Sonnetin!
Vertailutesti
Tutkija Lech Mazurin suunnittelema testi ei ole tavallinen kirjoituskilpailu.
Kunkin tekoälymallin piti tehdä 500 novellia, ja jokaisen tarinan piti sisältää 10 satunnaisesti määritettyä elementtiä. Tämä oli tekoälylle haastava avoin kirjoitustehtävä, jossa ei ainoastaan vaadittu täydellistä tarinaa, vaan myös varmistettiin, että kaikki annetut elementit integroitiin luontevasti.
Arviointimenetelmä
Tässä vertailutestissä käytetään ainutlaatuista pisteytysjärjestelmää: kuusi huippuluokan kielimallia toimii tuomareina ja pisteyttää tarinan eri osatekijät. Toisin sanoen tekoälyalan johtajat arvioivat itse tekoälyä, mikä tarjoaa kaiken kaikkiaan suhteellisen oikeudenmukaisen ja järjestelmällisen arviointistandardin.
Testin sisältö

Yllä olevassa kaaviossa esitetään luovan kirjoittamisen vertailutestin pistemäärien korrelaatioanalyysi. DeepSeek korrelaatiokerroin on yli 0,93 muiden valtavirtamallien (Claude, GPT-4o, Gemini ja Grok) kanssa, mikä osoittaa, että sen arviointikriteerit ovat erittäin yhdenmukaiset muiden huippumallien kanssa luovan kirjoittamisen laatua arvioitaessa, mikä vahvistaa epäsuorasti sen luotettavuutta tässä testissä.

Yllä olevassa taulukossa esitetään luovan novellin kirjoittamisen vertailutestin tulokset. Kunkin tekoälymallin oli kirjoitettava 500 tarinaa, joista jokaisen oli sisällettävä 10 määriteltyä satunnaista elementtiä. Kaavion pisteet osoittavat kunkin osallistuvan tekoälymallin pisteiden jakautumisen eri pisteytysmalleille (eri väreillä).
Testissä, DeepSeek (tummansiniset pisteet) suoriutui hyvin, sillä suurin osa sen pistemääristä oli keskittynyt kaavion yläpuoliskoon ja suhteellisen keskittyneesti, mikä osoittaa, että luovan kirjoittamisen taidot ovat vakaalla ja korkealla tasolla.
Tämän erinomaisen suorituskyvyn ansiosta se on onnistunut ohittamaan aiemman mestarin, Claude 3.5 Sonnetin, ja noussut uudeksi vertailutestien johtajaksi.

Tässä kaaviossa kukin rivi edustaa tekoälymallia ja kukin sarake arviointiulottuvuutta (kuten luonnehdintaa, juonen johdonmukaisuutta jne.). DeepSeek sijaitsee kaavion yläkeskellä, ja sen värisävy on oranssinkeltainen, mikä osoittaa, että se on saavuttanut erinomaisia tuloksia useimmissa arviointiulottuvuuksissa. Erityisesti se saavutti korkeat, lähes 8 pisteen pisteet keskeisillä ulottuvuuksilla, jotka ovat toteutus (Q6), luonnehdinta (TA) ja juonen kehitys (TJ). Vaikka se ei ehkä olekaan kirkkaimman keltainen yksittäisissä ulottuvuuksissa, sillä ei ole selviä heikkouksia.

Kuten kaaviosta näkyy, DeepSeek:n tarinapisteet jakautuvat enimmäkseen 7 ja 9 pisteen välille, ja jakauma on suhteellisen keskittynyt. Mielenkiintoista on, että sen trendiviiva on lähes vaakasuora, mikä osoittaa, että DeepSeek:n tarinan laatu ei ole läheisessä yhteydessä tarinan pituuteen. Toisin sanoen DeepSeek pystyy säilyttämään tasaisen korkean laadun riippumatta siitä, kirjoittaako se pitkän vai lyhyen tarinan. Tämä osoittaa, että DeepSeek keskittyy luomisessa enemmän laatuun kuin määrään ja pystyy ylläpitämään erinomaista suorituskykyä. eripituisissa tarinoissa.
Miksi DeepSeek R1 voittaa?
Testitulosten perusteella DeepSeek R1 suoriutui hämmästyttävän hyvin:
- Kattavat tarinan integrointiominaisuudet: R1 osoitti hämmästyttävää joustavuutta ja luovuutta käsitellessään erilaisia tarinan elementtien yhdistelmiä.
- Vakaa tulostuslaatu: Pisteiden jakautumista kuvaavasta taulukosta päätellen R1:llä oli paitsi korkea keskimääräinen pistemäärä, myös vakaa suoritus, jossa oli vähemmän vaihtelua.
- Erinomainen luova suoritus: Tässä vertailutestissä R1:n luomat tarinat sijoittuivat kolmen parhaan joukkoon, mikä osoittaa sen erinomaiset kyvyt luovassa kirjoittamisessa.
Miten muut kilpailijat suoriutuivat?
DeepSeek R1:n ja Claude 3.5 Sonnetin välisen jännittävän välienselvittelyn lisäksi myös muiden mallien suorituskyky on huomionarvoinen:
- Gemini-sarja suoriutui hyvin
- Llama 3.x -sarja kamppaili hieman tässä testissä.
- O3-mini ei menestynyt hyvin, vaan sijoittui 22. sijalle.

Vihdoinkin
DeepSeek R1:n läpimurto tässä testissä on osoittanut meille tekoälyn rajattomat mahdollisuudet luovuuden alalla. Vaikka tekoälyn luominen on vielä jatkuvan parantamisen tiellä, tällaiset tulokset ovat jo nyt saaneet meidät odottamaan tulevaisuutta.
Jos haluat lisätietoja testin yksityiskohdista, voit käydä Lech Mazurin GitHubissa, josta löydät täydelliset tiedot ja esimerkkejä parhaista tarinoista. Odotetaan yhdessä lisää läpimurtoja tekoälyn luovassa kirjoittamisessa!