
DeepSeek R1 vann mästerskapet i benchmark-testet för kreativt novellskrivande och överträffade framgångsrikt den tidigare dominerande spelaren Claude 3.5 Sonnet!
Benchmark-test
Benchmarktestet som utformats av forskaren Lech Mazur är inte en vanlig skrivtävling.
Varje AI-modell skulle skriva 500 korta berättelser, och varje berättelse skulle på ett smart sätt innehålla 10 slumpmässigt utvalda element. Detta var en utmanande öppen skrivuppgift för AI, som inte bara krävde en komplett berättelse, utan också säkerställde att alla tilldelade element var naturligt integrerade
Bedömningsmetod
Detta benchmark-test använder ett unikt poängsystem: sex toppspråkmodeller fungerar som domare och poängsätter olika aspekter av berättelsen. Med andra ord är det AI-branschens ledare som bedömer själva AI:n, vilket sammantaget ger en relativt rättvis och systematisk utvärderingsstandard.
Testets innehåll

Ovanstående diagram visar korrelationsanalysen av poängen i benchmark-testet för kreativt skrivande. DeepSeek har en korrelationskoefficient på över 0,93 med andra vanliga modeller (Claude, GPT-4o, Gemini och Grok), vilket tyder på att den har mycket konsekventa bedömningskriterier med andra toppmodeller när det gäller att bedöma kvaliteten på kreativt skrivande, vilket indirekt bekräftar dess tillförlitlighet i detta test.

Diagrammet ovan visar resultatet av riktmärkestestet för kreativa noveller. Varje AI-modell fick skriva 500 berättelser, som var och en måste innehålla 10 specificerade slumpmässiga element. Punkterna i diagrammet visar poängfördelningen för varje deltagande AI-modell för olika poängsättningsmodeller (representerade av olika färger).
I testet, DjupSEek (mörkblå poäng) presterade bra, med de flesta av sina poäng koncentrerade till den övre halvan av diagrammet och relativt koncentrerade, vilket visar på en stabil och hög nivå av kreativ skrivförmåga.
Denna enastående prestanda har gjort det möjligt för den att framgångsrikt överträffa den tidigare mästaren, Claude 3.5 Sonnet, och bli den nya ledaren för benchmark-test.

I det här diagrammet representerar varje rad en AI-modell och varje kolumn en utvärderingsdimension (t.ex. karaktärisering, intrigsammanhang osv.). DeepSeek ligger i den övre mitten av diagrammet, med en övergripande orange-gul nyans, vilket indikerar att den har uppnått utmärkta resultat i de flesta utvärderingsdimensioner. I synnerhet uppnådde den höga poäng på nästan 8 poäng i nyckeldimensionerna utförande (Q6), personskildring (TA) och intrigutveckling (TJ). Även om den kanske inte är den klarast gula i enskilda dimensioner, har den inga uppenbara svagheter.

Som du kan se i diagrammet är DeepSeek: s berättelsepoäng mestadels fördelade mellan 7 och 9 poäng, och distributionen är relativt koncentrerad. Intressant är att dess trendlinje är nästan horisontell, vilket indikerar att DeepSeeks berättelsekvalitet inte är nära relaterad till berättelsens längd. Med andra ord, oavsett om det handlar om en lång eller kort berättelse, kan DeepSeek hålla en genomgående hög kvalitet. Detta visar att DeepSeek fokuserar mer på kvalitet än kvantitet när han skapar, och kan upprätthålla utmärkt prestanda i berättelser av olika längd.
Varför gjorde DeepSeek R1 vinst?
Att döma av testresultaten presterade DeepSeek R1 fantastiskt:
- Omfattande funktioner för integration av berättelser: R1 visade prov på en fantastisk flexibilitet och kreativitet när det gällde att hantera olika kombinationer av berättelseelement.
- Stabil utskriftskvalitet: Att döma av poängfördelningsdiagrammet hade R1 inte bara en hög genomsnittlig poäng, utan också en stabil prestanda med mindre fluktuationer.
- Enastående kreativa prestationer: I detta benchmark-test rankades berättelserna som skapats av R1 bland de tre bästa totalt sett, vilket bevisar dess enastående förmåga till kreativt skrivande.
Hur gick det för de andra deltagarna?
Förutom den spännande uppgörelsen mellan DeepSeek R1 och Claude 3.5 Sonnet är även andra modellers prestanda värda att notera:
- Gemini-serien utvecklades väl
- Llama 3.x-serien hade det lite kämpigt i detta test
- o3-mini presterade inte bra och hamnade på 22:a plats

Slutligen
DeepSeek R1:s genombrott i det här testet har visat oss de oändliga möjligheterna med AI inom kreativitet. Även om AI-skapande fortfarande är på väg mot ständiga förbättringar, har sådana resultat redan gjort oss fulla av förväntningar på framtiden.
För den som vill lära sig mer om detaljerna i testet kan man besöka Lech Mazurs GitHub för fullständig data och exempel på de bästa berättelserna. Låt oss tillsammans se fram emot fler genombrott inom kreativt skrivande med AI!