
DeepSeek R1 won het kampioenschap in de benchmarktest voor het schrijven van creatieve korte verhalen, en overtrof daarmee met succes de vorige dominante speler Claude 3.5 Sonnet!
Benchmarktest
De benchmarktest, ontworpen door onderzoeker Lech Mazur, is geen doorsnee schrijfwedstrijd.
Elk AI-model moest 500 korte verhalen schrijven en in elk verhaal moesten 10 willekeurig toegewezen elementen op een slimme manier worden verwerkt. Dit was een uitdagende open schrijftaak voor de AI, die niet alleen een complete verhaallijn vereiste, maar er ook voor zorgde dat alle toegewezen elementen op een natuurlijke manier werden geïntegreerd.
Beoordelingsmethode
Deze benchmarktest maakt gebruik van een uniek scoresysteem: zes toptaalmodellen fungeren als juryleden en scoren verschillende aspecten van het verhaal. Met andere woorden, de top van de AI-industrie beoordeelt de AI zelf, wat over het algemeen een relatief eerlijke en systematische beoordelingsstandaard oplevert.
Inhoud test

De bovenstaande grafiek toont de correlatieanalyse van de scorers in de creatief schrijven benchmarktest. DeepSeek heeft een correlatiecoëfficiënt van meer dan 0,93 met andere gangbare modellen (Claude, GPT-4o, Gemini en Grok), wat aangeeft dat het zeer consistente beoordelingscriteria heeft met andere topmodellen bij het beoordelen van de kwaliteit van creatief schrijven, wat indirect de betrouwbaarheid in deze test bevestigt.

De bovenstaande grafiek toont de resultaten van de benchmarktest voor het schrijven van creatieve korte verhalen. Elk AI-model moest 500 verhalen schrijven, die elk 10 gespecificeerde willekeurige elementen moesten bevatten. De punten in de grafiek tonen de scoreverdeling van elk deelnemend AI-model voor verschillende scoringsmodellen (weergegeven door verschillende kleuren).
In de test, DiepSeek (donkerblauwe punten) presteerde goed, met de meeste scorepunten geconcentreerd in de bovenste helft van de grafiek en relatief geconcentreerd, waaruit een stabiel en hoog niveau van creatieve schrijfvaardigheid blijkt.
Dankzij deze uitstekende prestaties is het in staat geweest om de vorige kampioen, Claude 3.5 Sonnet, met succes te overtreffen en de nieuwe leider in benchmarktests te worden.

In deze grafiek stelt elke rij een AI-model voor en elke kolom een evaluatiedimensie (zoals karakterisering, plotcoherentie, enz.). DeepSeek staat in het bovenste midden van de grafiek, met een algemene oranje-gele tint, wat aangeeft dat het uitstekende resultaten heeft behaald in de meeste evaluatiedimensies. Het behaalde met name hoge scores van bijna 8 punten in de hoofddimensies uitvoering (Q6), karakterisering (TA) en plotontwikkeling (TJ). Hoewel het misschien niet het helderste geel is in individuele dimensies, heeft het geen duidelijke zwakke punten.

Zoals je kunt zien in de grafiek, zijn de verhaalscores van DeepSeek meestal verdeeld tussen 7 en 9 punten, en de verdeling is relatief geconcentreerd. Interessant is dat de trendlijn bijna horizontaal is, wat aangeeft dat de verhaalkwaliteit van DeepSeek niet nauw samenhangt met de lengte van het verhaal. Met andere woorden, of het nu een lang verhaal of een kort verhaal schrijft, DeepSeek kan een constante hoge kwaliteit van zijn output handhaven. Dit toont aan dat DeepSeek richt zich bij het maken meer op kwaliteit dan op kwantiteit en kan uitstekende prestaties blijven leveren in verhalen van verschillende lengte.
Waarom DeepSeek R1 winnen?
Afgaande op de testresultaten presteerde DeepSeek R1 verbazingwekkend:
- Uitgebreide verhaalintegratiemogelijkheden: R1 toonde verbazingwekkende flexibiliteit en creativiteit bij het omgaan met verschillende combinaties van verhaalelementen.
- Stabiele uitvoerkwaliteit: Te oordelen naar de scoreverdeling had R1 niet alleen een hoge gemiddelde score, maar ook een stabiele prestatie met minder schommelingen.
- Uitstekende creatieve prestaties: In deze benchmarktest behoorden de verhalen van R1 tot de top drie, wat bewijst dat R1 uitstekend is in creatief schrijven.
Hoe presteerden de andere deelnemers?
Naast de spannende krachtmeting tussen DeepSeek R1 en Claude 3.5 Sonnet zijn ook de prestaties van andere modellen het vermelden waard:
- De Gemini-serie presteerde goed
- De Llama 3.x serie worstelde een beetje in deze test
- De o3-mini presteerde niet goed en stond op de 22e plaats

Eindelijk
De doorbraak van DeepSeek R1 in deze test heeft ons de oneindige mogelijkheden van AI op het gebied van creativiteit laten zien. Hoewel AI-creatie zich nog steeds op het pad van voortdurende verbetering bevindt, hebben dergelijke resultaten ons nu al vol verwachtingen voor de toekomst gemaakt.
Wie meer wil weten over de details van de test, kan Lech Mazur's GitHub bezoeken voor de volledige gegevens en voorbeelden van de beste verhalen. Laten we samen uitkijken naar meer doorbraken in AI creatief schrijven!