DeepSeek R1 se v testu tvůrčího psaní umístil na prvním místě a o3 mini byl ještě horší než o1 mini!

DeepSeek R1 zvítězil ve srovnávacím testu tvůrčího psaní povídek a úspěšně překonal předchozího dominantního hráče Claude 3.5 Sonnet!

Obsah

Srovnávací test

Srovnávací test navržený výzkumníkem Lechem Mazurem není běžnou soutěží v psaní.

Každý model umělé inteligence musel dokončit 500 krátkých příběhů a každý příběh musel chytře zahrnovat 10 náhodně přiřazených prvků. Pro umělou inteligenci se jednalo o náročný úkol psaní s otevřeným koncem, který nejenže vyžadoval kompletní příběh, ale také zajišťoval, aby všechny přidělené prvky byly přirozeně začleněny do děje

Způsob hodnocení

Tento srovnávací test využívá jedinečný systém bodování: šest špičkových jazykových modelů funguje jako porotci a hodnotí různé aspekty příběhu. Jinými slovy, špičky v oboru umělé inteligence hodnotí samotnou umělou inteligenci, což celkově poskytuje poměrně spravedlivý a systematický standard hodnocení.

Obsah testu

Výše uvedený graf ukazuje korelační analýzu výsledků žáků ve srovnávacím testu tvůrčího psaní. DeepSeek má korelační koeficient vyšší než 0,93 s ostatními hlavními modely (Claude, GPT-4o, Gemini a Grok), což naznačuje, že má vysoce konzistentní kritéria posuzování s ostatními špičkovými modely při posuzování kvality tvůrčího psaní, což nepřímo potvrzuje jeho spolehlivost v tomto testu.

Výše uvedený graf ukazuje výsledky srovnávacího testu tvůrčího psaní povídek. Každý model umělé inteligence musel napsat 500 příběhů, z nichž každý musel obsahovat 10 zadaných náhodných prvků. Body v grafu znázorňují rozložení skóre každého zúčastněného modelu umělé inteligence pro různé skórovací modely (znázorněné různými barvami).

V testu, Deep S eek (tmavě modré body) si vedl dobře, většina jeho bodového hodnocení se soustředila v horní polovině grafu a byla poměrně koncentrovaná, což svědčí o stabilní a vysoké úrovni schopnosti tvůrčího psaní.

Díky tomuto vynikajícímu výkonu se mu podařilo úspěšně překonat předchozího šampiona, Claude 3.5 Sonnet, a stát se novým lídrem srovnávacího testu.

V tomto grafu každý řádek představuje model umělé inteligence a každý sloupec představuje dimenzi hodnocení (např. charakteristika, koherence výkresu atd.). Model DeepSeek se nachází v horní polovině grafu s celkovým oranžovožlutým odstínem, což znamená, že dosáhl vynikajících výsledků ve většině hodnotících dimenzí. Zejména dosáhl vysokého skóre téměř 8 bodů v klíčových dimenzích provedení (Q6), charakterizace (TA) a rozvíjení zápletky (TJ). Ačkoli v jednotlivých dimenzích možná není nejzářivěji žlutá, nemá žádné zjevné slabiny.

Jak je vidět z grafu, skóre příběhů DeepSeek je většinou rozloženo mezi 7 a 9 body a toto rozložení je poměrně koncentrované. Zajímavé je, že jeho trendová čára je téměř vodorovná, což naznačuje, že kvalita příběhu DeepSeek úzce nesouvisí s délkou příběhu. Jinými slovy, ať už píše dlouhý nebo krátký příběh, DeepSeek si dokáže udržet trvale vysokou kvalitu výstupu. To ukazuje, že DeepSeek se při tvorbě zaměřuje spíše na kvalitu než na kvantitu a dokáže si udržet vynikající výkon. v různě dlouhých příbězích.

Proč Výhra DeepSeek R1?

Soudě podle výsledků testů si DeepSeek R1 vedl úžasně:

Komplexní možnosti integrace příběhů: R1 prokázal úžasnou flexibilitu a kreativitu při práci s různými kombinacemi příběhových prvků.
Stabilní kvalita výstupu: Z grafu rozložení skóre vyplývá, že R1 měl nejen vysoké průměrné skóre, ale také stabilní výkon s menšími výkyvy.
Vynikající kreativní výkon: V tomto srovnávacím testu se příběhy vytvořené v R1 umístily mezi třemi nejlepšími, což dokazuje jejich vynikající schopnost tvůrčího psaní.

Jak si vedli ostatní soutěžící?

Kromě napínavého souboje mezi DeepSeek R1 a Claude 3.5 Sonnet stojí za zmínku i výkon dalších modelů:

Řada Gemini si vedla dobře
Řada Llama 3.x se v tomto testu trochu potýkala s problémy.
Model o3-mini nedosáhl dobrého výsledku a umístil se na 22. místě.

Konečně

Průlom společnosti DeepSeek R1 v tomto testu nám ukázal nekonečné možnosti umělé inteligence v oblasti kreativity. Ačkoli je tvorba AI stále na cestě neustálého zdokonalování, takové výsledky v nás již nyní vzbuzují plná očekávání do budoucna.

Ti, kteří se chtějí dozvědět více o podrobnostech testu, mohou navštívit GitHub Lecha Mazura, kde naleznou kompletní data a příklady nejlepších příběhů. Těšme se společně na další průlomy v oblasti tvůrčího psaní s umělou inteligencí!

Podobné příspěvky

Nezařazené

Cathie Wood: DeepSeek jen urychluje proces snižování nákladů; extrémně koncentrovaná tržní struktura srovnatelná s Velkou hospodářskou krizí se změní

Podlezddeepseeker Únor 8, 2025Únor 8, 2025

Hlavní body Konkurence s DeepSeek je dobrá pro americkou Cathie Wood: Myslím, že ukazuje, že náklady na inovace dramaticky klesají a že tento trend již začal. Například před DeepSeek náklady na výcvik umělé inteligence klesly o 75% ročně a náklady na odvození dokonce o 85% na…

Nezařazené

Převratné novinky! OpenAI dnes vydala 2 nové inferenční modely: o3-mini a o3-mini-high.

Podlezddeepseeker Únor 1, 2025Únor 1, 2025

Dnes budou vydány balíčky o3-mini a o3-mini (high). Běžní uživatelé dostanou také o3-mini a uživatelé plus budou moci používat o3-mini (high). o3-mini (high) je asi o 200 bodů vyšší než o1 na Codeforce, je rychlejší než o1 a má lepší výsledky v kódování a matematice, ale cena je stále na úrovni o1-mini.....

Nezařazené

Je blízko DeepSeek-R1-32B a drtí Fei-Fei Li's s1! UC Berkeley a další open source nové odvozené modely SOTA

Podlezddeepseeker Únor 14, 2025Únor 14, 2025

Inferenční model 32B využívá pouze 1/8 dat a je svázán s DeepSeek-R1 stejné velikosti! Právě nyní instituce jako Stanford, UC Berkeley a University of Washington společně vydaly inferenční model na úrovni SOTA, OpenThinker-32B, a také získaly open source až 114k tréninková data. Domovská stránka projektu OpenThinker: OpenThinker Hugging Face:…

Nezařazené

Jak vznikl DeepSeek? Analýza historie růstu společnosti DeepSeek

Podlezddeepseeker Únor 3, 2025Únor 3, 2025

V budoucnu bude přibývat tvrdých inovací. Nyní to nemusí být snadné pochopit, protože celá sociální skupina musí být vzdělána na základě faktů. Až tato společnost umožní lidem, kteří inovují hardcore, uspět, kolektivní myšlení se změní. Potřebujeme jen hromadu faktů a proces.....

Nezařazené

Čeho může Deepseek dosáhnout? Ani OpenAI to neumí?

Podlezddeepseeker Únor 10, 2025Únor 10, 2025

Skutečná hodnota DeepSeek je podhodnocena! DeepSeek-R1 nepochybně přinesla na trh novou vlnu nadšení. Nejen, že se prudce zvyšují příslušné takzvané cíle pro příjemce, ale někteří lidé dokonce vyvinuli kurzy a software související s DeepSeek ve snaze vydělat na tom peníze. Věříme, že ačkoli tyto jevy mají…

Nezařazené

Le Chat vede žebříčky s investicí ve výši sta miliard dolarů. Je po USA a Číně třetí mocností umělé inteligence?

Podlezddeepseeker Únor 11, 2025Únor 11, 2025

9. února francouzský prezident Emmanuel Macron oznámil, že Francie v příštích několika letech investuje 109 miliard eur (113 miliard amerických dolarů) do oblasti umělé inteligence. Tato investice bude použita na vybudování parku umělé inteligence ve Francii, zlepšení infrastruktury a investic do místních start-upů zaměřených na umělou inteligenci. Mezitím Mistral, francouzský startup,…

Srovnávací test

Způsob hodnocení

Obsah testu

Proč Výhra DeepSeek R1?

Jak si vedli ostatní soutěžící?

Konečně

Podobné příspěvky

Napsat komentář Zrušit odpověď na komentář