
DeepSeek R1 zvítězil ve srovnávacím testu tvůrčího psaní povídek a úspěšně překonal předchozího dominantního hráče Claude 3.5 Sonnet!
Srovnávací test
Srovnávací test navržený výzkumníkem Lechem Mazurem není běžnou soutěží v psaní.
Každý model umělé inteligence musel dokončit 500 krátkých příběhů a každý příběh musel chytře zahrnovat 10 náhodně přiřazených prvků. Pro umělou inteligenci se jednalo o náročný úkol psaní s otevřeným koncem, který nejenže vyžadoval kompletní příběh, ale také zajišťoval, aby všechny přidělené prvky byly přirozeně začleněny do děje
Způsob hodnocení
Tento srovnávací test využívá jedinečný systém bodování: šest špičkových jazykových modelů funguje jako porotci a hodnotí různé aspekty příběhu. Jinými slovy, špičky v oboru umělé inteligence hodnotí samotnou umělou inteligenci, což celkově poskytuje poměrně spravedlivý a systematický standard hodnocení.
Obsah testu

Výše uvedený graf ukazuje korelační analýzu výsledků žáků ve srovnávacím testu tvůrčího psaní. DeepSeek má korelační koeficient vyšší než 0,93 s ostatními hlavními modely (Claude, GPT-4o, Gemini a Grok), což naznačuje, že má vysoce konzistentní kritéria posuzování s ostatními špičkovými modely při posuzování kvality tvůrčího psaní, což nepřímo potvrzuje jeho spolehlivost v tomto testu.

Výše uvedený graf ukazuje výsledky srovnávacího testu tvůrčího psaní povídek. Každý model umělé inteligence musel napsat 500 příběhů, z nichž každý musel obsahovat 10 zadaných náhodných prvků. Body v grafu znázorňují rozložení skóre každého zúčastněného modelu umělé inteligence pro různé skórovací modely (znázorněné různými barvami).
V testu, DeepSeek (tmavě modré body) si vedl dobře, většina jeho bodového hodnocení se soustředila v horní polovině grafu a byla poměrně koncentrovaná, což svědčí o stabilní a vysoké úrovni schopnosti tvůrčího psaní.
Díky tomuto vynikajícímu výkonu se mu podařilo úspěšně překonat předchozího šampiona, Claude 3.5 Sonnet, a stát se novým lídrem srovnávacího testu.

V tomto grafu každý řádek představuje model umělé inteligence a každý sloupec představuje dimenzi hodnocení (např. charakteristika, koherence výkresu atd.). Model DeepSeek se nachází v horní polovině grafu s celkovým oranžovožlutým odstínem, což znamená, že dosáhl vynikajících výsledků ve většině hodnotících dimenzí. Zejména dosáhl vysokého skóre téměř 8 bodů v klíčových dimenzích provedení (Q6), charakterizace (TA) a rozvíjení zápletky (TJ). Ačkoli v jednotlivých dimenzích možná není nejzářivěji žlutá, nemá žádné zjevné slabiny.

Jak je vidět z grafu, skóre příběhů DeepSeek je většinou rozloženo mezi 7 a 9 body a toto rozložení je poměrně koncentrované. Zajímavé je, že jeho trendová čára je téměř vodorovná, což naznačuje, že kvalita příběhu DeepSeek úzce nesouvisí s délkou příběhu. Jinými slovy, ať už píše dlouhý nebo krátký příběh, DeepSeek si dokáže udržet trvale vysokou kvalitu výstupu. To ukazuje, že DeepSeek se při tvorbě zaměřuje spíše na kvalitu než na kvantitu a dokáže si udržet vynikající výkon. v různě dlouhých příbězích.
Proč Výhra DeepSeek R1?
Soudě podle výsledků testů si DeepSeek R1 vedl úžasně:
- Komplexní možnosti integrace příběhů: R1 prokázal úžasnou flexibilitu a kreativitu při práci s různými kombinacemi příběhových prvků.
- Stabilní kvalita výstupu: Z grafu rozložení skóre vyplývá, že R1 měl nejen vysoké průměrné skóre, ale také stabilní výkon s menšími výkyvy.
- Vynikající kreativní výkon: V tomto srovnávacím testu se příběhy vytvořené v R1 umístily mezi třemi nejlepšími, což dokazuje jejich vynikající schopnost tvůrčího psaní.
Jak si vedli ostatní soutěžící?
Kromě napínavého souboje mezi DeepSeek R1 a Claude 3.5 Sonnet stojí za zmínku i výkon dalších modelů:
- Řada Gemini si vedla dobře
- Řada Llama 3.x se v tomto testu trochu potýkala s problémy.
- Model o3-mini nedosáhl dobrého výsledku a umístil se na 22. místě.

Konečně
Průlom společnosti DeepSeek R1 v tomto testu nám ukázal nekonečné možnosti umělé inteligence v oblasti kreativity. Ačkoli je tvorba AI stále na cestě neustálého zdokonalování, takové výsledky v nás již nyní vzbuzují plná očekávání do budoucna.
Ti, kteří se chtějí dozvědět více o podrobnostech testu, mohou navštívit GitHub Lecha Mazura, kde naleznou kompletní data a příklady nejlepších příběhů. Těšme se společně na další průlomy v oblasti tvůrčího psaní s umělou inteligencí!