DeepSeek R1 je bil prvi na testu kreativnega pisanja, o3 mini pa je bil še slabši od o1 mini!

DeepSeek R1 je osvojil prvenstvo v merilnem testu kreativnega pisanja kratkih zgodb in uspešno presegel prejšnjega dominantnega igralca Claude 3.5 Sonnet!

Kazalo

Primerjalni test

Primerjalni test, ki ga je zasnoval raziskovalec Lech Mazur, ni vaše povprečno tekmovanje v pisanju.

Vsak model AI je moral dokončati 500 kratkih zgodb, vsaka zgodba pa je morala pametno vključevati 10 naključno dodeljenih elementov. To je bila zahtevna odprta pisna naloga za umetno inteligenco, ki ni zahtevala le popolne zgodbe, ampak je tudi zagotovila, da so bili vsi dodeljeni elementi naravno integrirani

Metoda sojenja

Ta primerjalni test uporablja edinstven sistem točkovanja: šest najboljših jezikovnih modelov deluje kot sodniki in ocenjujejo različne vidike zgodbe. Z drugimi besedami, vodilni v industriji umetne inteligence ocenjujejo samo umetno inteligenco, ki na splošno zagotavlja razmeroma pravičen in sistematičen standard ocenjevanja.

Testna vsebina

Zgornja tabela prikazuje korelacijsko analizo ocenjevalcev v primerjalnem testu kreativnega pisanja. DeepSeek ima korelacijski koeficient nad 0,93 z drugimi mainstream modeli (Claude, GPT-4o, Gemini in Grok), kar pomeni, da ima pri ocenjevanju kakovosti kreativnega pisanja zelo dosledna merila presoje z drugimi vrhunskimi modeli, kar posredno potrjuje njegovo zanesljivost v tem test.

Zgornja tabela prikazuje rezultate primerjalnega testa kreativnega pisanja kratkih zgodb. Vsak model AI je moral napisati 500 zgodb, od katerih mora vsaka vsebovati 10 določenih naključnih elementov. Točke v grafikonu prikazujejo porazdelitev rezultatov vsakega sodelujočega modela AI za različne modele točkovanja (predstavljene z različnimi barvami).

V testu, Globoko S eek (temno modre točke) se je dobro odrezal, saj je večina njegovih rezultatov skoncentriranih v zgornji polovici grafikona in relativno koncentriranih, kar kaže na stabilno in visoko raven sposobnosti kreativnega pisanja.

Ta izjemna zmogljivost mu je omogočila, da je uspešno presegel prejšnjega prvaka, Claude 3.5 Sonnet, in postal novi vodilni v merilnem testu.

V tem grafikonu vsaka vrstica predstavlja model AI, vsak stolpec pa dimenzijo vrednotenja (kot je karakterizacija, skladnost risbe itd.). DeepSeek se nahaja v zgornji sredini grafikona, s splošnim oranžno-rumenim odtenkom, kar kaže, da je dosegel odlične rezultate v večini dimenzij ocenjevanja. Zlasti je dosegel visoke ocene skoraj 8 točk v ključnih dimenzijah izvedbe (Q6), karakterizacije (TA) in razvoja zapleta (TJ). Čeprav v posameznih dimenzijah morda ni najsvetlejša rumena, očitnih slabosti nima.

Kot lahko vidite na grafikonu, so rezultati zgodbe DeepSeek večinoma porazdeljeni med 7 in 9 točkami, porazdelitev pa je relativno koncentrirana. Zanimivo je, da je njegova linija trenda skoraj vodoravna, kar kaže, da kakovost zgodbe DeepSeek ni tesno povezana z dolžino zgodbe. Z drugimi besedami, ne glede na to, ali piše dolgo zgodbo ali kratko zgodbo, lahko DeepSeek ohranja dosledno visokokakovosten izpis. To kaže, da DeepSeek se pri ustvarjanju bolj osredotoča na kakovost kot na količino in lahko ohranja odlično zmogljivost v zgodbah različnih dolžin.

Zakaj Zmaga DeepSeek R1?

Sodeč po rezultatih testa se je DeepSeek R1 odrezal neverjetno:

Obsežne zmožnosti integracije zgodb: R1 je pokazal neverjetno prilagodljivost in ustvarjalnost pri obravnavanju različnih kombinacij elementov zgodbe.
Stabilna izhodna kakovost: Sodeč po diagramu porazdelitve rezultatov, R1 ni imel samo visoke povprečne ocene, ampak tudi stabilno delovanje z manj nihanja.
Izjemna ustvarjalna uspešnost: V tem primerjalnem testu so bile zgodbe, ki jih je ustvaril R1, ocenjene med tremi najboljšimi na splošno, kar dokazuje njegovo izjemno sposobnost kreativnega pisanja.

Kako so se odrezali ostali tekmovalci?

Poleg razburljivega obračuna med DeepSeek R1 in Claude 3.5 Sonnet velja omeniti tudi zmogljivost drugih modelov:

Serija Gemini se je dobro odrezala
Serija Llama 3.x se je na tem testu nekoliko mučila
O3-mini se ni izkazal najbolje, uvrstil se je na 22. mesto

Končno

Preboj DeepSeek R1 v tem testu nam je pokazal neskončne možnosti AI na področju ustvarjalnosti. Čeprav je ustvarjanje umetne inteligence še vedno na poti nenehnega izboljševanja, smo zaradi takšnih rezultatov že polni pričakovanj za prihodnost.

Za tiste, ki želite izvedeti več o podrobnostih testa, lahko obiščete GitHub Lecha Mazurja za vse podatke in primere najboljših zgodb. Veselimo se novih prebojev v ustvarjalnem pisanju AI!

Podobne objave

DeepSeek R1 je bil prvi na testu kreativnega pisanja, o3 mini pa je bil še slabši od o1 mini!

Primerjalni test

Metoda sojenja

Testna vsebina

Zakaj Zmaga DeepSeek R1?

Kako so se odrezali ostali tekmovalci?

Končno

Google je izdal tri nove modele naenkrat: Gemini-2.0-Pro je brezplačen, ima izjemen rezultat in je na prvem mestu ter je primeren za kodiranje in obdelavo zapletenih pozivov!

Gemini 2.0 dominira na lestvicah, medtem ko DeepSeek V3 joka zaradi svoje cene in nov stroškovno učinkovit prvak je rojen!

Ali Qwen2.5-Max prehitel DeepSeek-V3! Netizen: Kitajska umetna inteligenca hitro zmanjšuje vrzel

Altman: Motili smo se glede odprtokodne umetne inteligence! DeepSeek je naredil OpenAI manj ugoden, naslednji pa je GPT-5

Le Chat je na vrhu lestvice s sto milijardami dolarjev naložbe. Je po ZDA in Kitajski tretja sila AI?

Primerjava štirih najboljših modelov! Pregled prikazuje, kako zmogljiv je Deepseek R1

Dodaj odgovor Prekliči odgovor