DeepSeek R1 vandt mesterskabet i benchmark-testen for kreativ novelleskrivning og overgik dermed den tidligere dominerende spiller Claude 3.5 Sonnet!

Benchmark-test

Benchmark-testen, der er designet af forskeren Lech Mazur, er ikke en helt almindelig skrivekonkurrence.

Hver AI-model skulle færdiggøre 500 korte historier, og hver historie skulle på en smart måde inkorporere 10 tilfældigt tildelte elementer. Det var en udfordrende, åben skriveopgave for AI'en, som ikke kun krævede en komplet historie, men også sikrede, at alle de tildelte elementer blev naturligt integreret.

Bedømmelsesmetode

Denne benchmarktest bruger et unikt pointsystem: Seks topsprogmodeller fungerer som dommere og giver point til forskellige aspekter af historien. Med andre ord bedømmer AI-branchens ledere selve AI'en, hvilket samlet set giver en relativt retfærdig og systematisk evalueringsstandard.

Testens indhold

Ovenstående diagram viser korrelationsanalysen af pointene i benchmark-testen i kreativ skrivning. DeepSeek har en korrelationskoefficient på over 0,93 med andre mainstream-modeller (Claude, GPT-4o, Gemini og Grok), hvilket indikerer, at den har meget konsistente bedømmelseskriterier med andre topmodeller, når den bedømmer kvaliteten af kreativ skrivning, hvilket indirekte bekræfter dens pålidelighed i denne test.

Diagrammet ovenfor viser resultaterne af benchmark-testen for kreativ novelleskrivning. Hver AI-model skulle skrive 500 historier, som hver skulle indeholde 10 specificerede tilfældige elementer. Punkterne i diagrammet viser scorefordelingen for hver deltagende AI-model for forskellige scoringsmodeller (repræsenteret ved forskellige farver).

I testen, DybSEek (mørkeblå point) klarede sig godt med de fleste af sine point koncentreret i den øverste halvdel af diagrammet og relativt koncentreret, hvilket viser et stabilt og højt niveau af kreative skriveevner.

Denne fremragende præstation har gjort det muligt for den at overgå den tidligere mester, Claude 3.5 Sonnet, og blive den nye benchmark-testleder.

I dette diagram repræsenterer hver række en AI-model, og hver kolonne repræsenterer en evalueringsdimension (f.eks. karakterisering, plotkohærens osv.). DeepSeek er placeret øverst i midten af diagrammet med en overordnet orangegul nuance, hvilket indikerer, at den har opnået fremragende resultater i de fleste evalueringsdimensioner. Den opnåede især høje scorer på næsten 8 point i nøgledimensionerne udførelse (Q6), karakterisering (TA) og plotudvikling (TJ). Selv om den måske ikke er den klareste gule i de enkelte dimensioner, har den ikke nogen åbenlyse svagheder.

Som du kan se i diagrammet, er DeepSeek's historiescore for det meste fordelt mellem 7 og 9 point, og fordelingen er relativt koncentreret. Interessant nok er tendenslinjen næsten vandret, hvilket indikerer, at DeepSeek's historiekvalitet ikke er tæt forbundet med historiens længde. Med andre ord kan DeepSeek opretholde en konstant høj kvalitet, uanset om den skriver en lang eller en kort historie. Dette viser, at DeepSeek fokuserer mere på kvalitet end kvantitet, når han skaber, og kan opretholde en fremragende præstation i historier af forskellig længde.

Hvorfor gjorde DeepSeek R1 vinder?

At dømme ud fra testresultaterne klarede DeepSeek R1 sig fantastisk:

  • Omfattende muligheder for integration af historier: R1 udviste en fantastisk fleksibilitet og kreativitet, når han arbejdede med forskellige kombinationer af historieelementer.
  • Stabil udgangskvalitet: At dømme ud fra pointfordelingsdiagrammet havde R1 ikke kun en høj gennemsnitsscore, men også en stabil præstation med mindre udsving.
  • Enestående kreativ præstation: I denne benchmarktest blev de historier, der blev skabt af R1, vurderet til at være blandt de tre bedste i alt, hvilket beviser dens fremragende evne til kreativ skrivning.

Hvordan klarede de andre deltagere sig?

Ud over det spændende opgør mellem DeepSeek R1 og Claude 3.5 Sonnet er andre modellers ydeevne også værd at bemærke:

  • Gemini-serien klarede sig godt
  • Llama 3.x-serien havde det lidt svært i denne test
  • o3-mini klarede sig ikke godt og lå på en 22. plads

Endelig

DeepSeek R1's gennembrud i denne test har vist os AI's uendelige muligheder inden for kreativitet. Selvom AI-skabelse stadig er på vej til at blive forbedret, har sådanne resultater allerede gjort os fulde af forventninger til fremtiden.

Hvis du vil vide mere om detaljerne i testen, kan du besøge Lech Mazurs GitHub for at se de fulde data og eksempler på de bedste historier. Lad os sammen se frem til flere gennembrud inden for kreativ AI-skrivning!

Lignende indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *