DeepSeek R1 kom først i testen i kreativ skrivning, og o3 mini var endnu værre end o1 mini!

DeepSeek R1 vandt mesterskabet i benchmark-testen for kreativ novelleskrivning og overgik dermed den tidligere dominerende spiller Claude 3.5 Sonnet!

Indholdsfortegnelse

Benchmark-test

Benchmark-testen, der er designet af forskeren Lech Mazur, er ikke en helt almindelig skrivekonkurrence.

Hver AI-model skulle færdiggøre 500 korte historier, og hver historie skulle på en smart måde inkorporere 10 tilfældigt tildelte elementer. Det var en udfordrende, åben skriveopgave for AI'en, som ikke kun krævede en komplet historie, men også sikrede, at alle de tildelte elementer blev naturligt integreret.

Bedømmelsesmetode

Denne benchmarktest bruger et unikt pointsystem: Seks topsprogmodeller fungerer som dommere og giver point til forskellige aspekter af historien. Med andre ord bedømmer AI-branchens ledere selve AI'en, hvilket samlet set giver en relativt retfærdig og systematisk evalueringsstandard.

Testens indhold

Ovenstående diagram viser korrelationsanalysen af pointene i benchmark-testen i kreativ skrivning. DeepSeek har en korrelationskoefficient på over 0,93 med andre mainstream-modeller (Claude, GPT-4o, Gemini og Grok), hvilket indikerer, at den har meget konsistente bedømmelseskriterier med andre topmodeller, når den bedømmer kvaliteten af kreativ skrivning, hvilket indirekte bekræfter dens pålidelighed i denne test.

Diagrammet ovenfor viser resultaterne af benchmark-testen for kreativ novelleskrivning. Hver AI-model skulle skrive 500 historier, som hver skulle indeholde 10 specificerede tilfældige elementer. Punkterne i diagrammet viser scorefordelingen for hver deltagende AI-model for forskellige scoringsmodeller (repræsenteret ved forskellige farver).

I testen, Dyb S Eek (mørkeblå point) klarede sig godt med de fleste af sine point koncentreret i den øverste halvdel af diagrammet og relativt koncentreret, hvilket viser et stabilt og højt niveau af kreative skriveevner.

Denne fremragende præstation har gjort det muligt for den at overgå den tidligere mester, Claude 3.5 Sonnet, og blive den nye benchmark-testleder.

I dette diagram repræsenterer hver række en AI-model, og hver kolonne repræsenterer en evalueringsdimension (f.eks. karakterisering, plotkohærens osv.). DeepSeek er placeret øverst i midten af diagrammet med en overordnet orangegul nuance, hvilket indikerer, at den har opnået fremragende resultater i de fleste evalueringsdimensioner. Den opnåede især høje scorer på næsten 8 point i nøgledimensionerne udførelse (Q6), karakterisering (TA) og plotudvikling (TJ). Selv om den måske ikke er den klareste gule i de enkelte dimensioner, har den ikke nogen åbenlyse svagheder.

Som du kan se i diagrammet, er DeepSeek's historiescore for det meste fordelt mellem 7 og 9 point, og fordelingen er relativt koncentreret. Interessant nok er tendenslinjen næsten vandret, hvilket indikerer, at DeepSeek's historiekvalitet ikke er tæt forbundet med historiens længde. Med andre ord kan DeepSeek opretholde en konstant høj kvalitet, uanset om den skriver en lang eller en kort historie. Dette viser, at DeepSeek fokuserer mere på kvalitet end kvantitet, når han skaber, og kan opretholde en fremragende præstation i historier af forskellig længde.

Hvorfor gjorde DeepSeek R1 vinder?

At dømme ud fra testresultaterne klarede DeepSeek R1 sig fantastisk:

Omfattende muligheder for integration af historier: R1 udviste en fantastisk fleksibilitet og kreativitet, når han arbejdede med forskellige kombinationer af historieelementer.
Stabil udgangskvalitet: At dømme ud fra pointfordelingsdiagrammet havde R1 ikke kun en høj gennemsnitsscore, men også en stabil præstation med mindre udsving.
Enestående kreativ præstation: I denne benchmarktest blev de historier, der blev skabt af R1, vurderet til at være blandt de tre bedste i alt, hvilket beviser dens fremragende evne til kreativ skrivning.

Hvordan klarede de andre deltagere sig?

Ud over det spændende opgør mellem DeepSeek R1 og Claude 3.5 Sonnet er andre modellers ydeevne også værd at bemærke:

Gemini-serien klarede sig godt
Llama 3.x-serien havde det lidt svært i denne test
o3-mini klarede sig ikke godt og lå på en 22. plads

Endelig

DeepSeek R1's gennembrud i denne test har vist os AI's uendelige muligheder inden for kreativitet. Selvom AI-skabelse stadig er på vej til at blive forbedret, har sådanne resultater allerede gjort os fulde af forventninger til fremtiden.

Hvis du vil vide mere om detaljerne i testen, kan du besøge Lech Mazurs GitHub for at se de fulde data og eksempler på de bedste historier. Lad os sammen se frem til flere gennembrud inden for kreativ AI-skrivning!

Lignende indlæg

Ikke kategoriseret

Opgøret mellem de fire bedste modeller! En anmeldelse viser, hvor kraftfuld Deepseek R1 er

Afzddeepseeker 1. juni 20251. juni 2025

I løbet af de seneste par dage er Deepseek-R1 0528 officielt blevet open source. På LiveCodeBench er dens ydeevne næsten på niveau med OpenAIs o3 (høj); i Aiders flersprogede benchmarktest kan den måle sig med Claude Opus. Da den blev lanceret på den officielle hjemmeside, testede vi hurtigt dens frontend-funktioner og fandt dem exceptionelt ...

Ikke kategoriseret

Store sprogmodelstyringsartefakter såsom DeepSeek: Cherry Studio, Chatbox, AnythingLLM, hvem er din effektivitetsaccelerator?

Afzddeepseeker 11. februar 202511. februar 2025

Mange mennesker er allerede begyndt at implementere og bruge Deepseek Large Language Models lokalt ved at bruge Chatbox som et visualiseringsværktøj. Denne artikel vil fortsætte med at introducere to andre AI Large Language Model management og visualiseringsartefakter, og vil sammenligne de tre i detaljer for at hjælpe dig med at bruge AI Large Language Models mere effektivt. I 2025,…

Ikke kategoriseret

DeepSeek har frigivet sin kildekode, detaljeret forklaring af FlashMLA

Afzddeepseeker 24. februar 202524. februar 2025

I sidste uge annoncerede DeepSeek, at det ville open source fem projekter i næste uge: Netizens sagde: "Denne gang er OpenAI virkelig her." Lige nu kom det første open source-projekt, relateret til inferensacceleration, FlashMLA: Open source-projektadresse: DeepSeek FlashMLA Det har været open source i to timer, og Github har allerede 2,7k+ stjerner: The...

Ikke kategoriseret

I AI-cirklen har DeepSeek R1 støt og roligt overgået o1 og Claude i fysiske tests, og vi er gået ind i RL's guldalder.

Afzddeepseeker 1. februar 20251. februar 2025

Ingen af os forventede, at det var sådan, 2025 ville begynde på AI-området. DeepSeek R1 er virkelig fantastisk! For nylig har den "mystiske østlige magt" DeepSeek "hårdt kontrolleret" Silicon Valley. Jeg bad R1 om at forklare Pythagoras' læresætning i detaljer. Alt dette blev gjort af AI på mindre end 30 sekunder uden nogen...

Ikke kategoriseret

Det er tæt på DeepSeek-R1-32B og knuser Fei-Fei Lis s1! UC Berkeley og andre open source nye SOTA-inferensmodeller

Afzddeepseeker 14. februar 202514. februar 2025

32B-inferensmodellen bruger kun 1/8 af dataene og er bundet med DeepSeek-R1 af samme størrelse! Netop nu har institutioner som Stanford, UC Berkeley og University of Washington i fællesskab frigivet en inferensmodel på SOTA-niveau, OpenThinker-32B, og har også open source op til 114.000 træningsdata. OpenThinker Projects hjemmeside: OpenThinker Hugging Face:...

Ikke kategoriseret

Gemini 2.0 dominerer hitlisterne, mens DeepSeek V3 græder i sin pris, og en ny omkostningseffektiv mester er født!

Afzddeepseeker 8. februar 20258. februar 2025

Google Gemini 2.0-familien er endelig færdig! Den dominerer hitlisterne, så snart den udgives. Midt i jagten på og blokaderne af Deepseek, Qwen og o3 udgav Google tre modeller på én gang tidligt i morges: Gemini 2.0 Pro, Gemini 2.0 Flash og Gemini 2.0 Flash-Lite. På den store model LMSYS-rangliste, Gemini...

DeepSeek R1 kom først i prøven i kreativ skrivning, og o3 mini var endnu dårligere end o1 mini!

Benchmark-test

Bedømmelsesmetode

Testens indhold

Hvorfor gjorde DeepSeek R1 vinder?

Hvordan klarede de andre deltagere sig?

Endelig

Opgøret mellem de fire bedste modeller! En anmeldelse viser, hvor kraftfuld Deepseek R1 er

Store sprogmodelstyringsartefakter såsom DeepSeek: Cherry Studio, Chatbox, AnythingLLM, hvem er din effektivitetsaccelerator?

DeepSeek har frigivet sin kildekode, detaljeret forklaring af FlashMLA

I AI-cirklen har DeepSeek R1 støt og roligt overgået o1 og Claude i fysiske tests, og vi er gået ind i RL's guldalder.

Det er tæt på DeepSeek-R1-32B og knuser Fei-Fei Lis s1! UC Berkeley og andre open source nye SOTA-inferensmodeller

Gemini 2.0 dominerer hitlisterne, mens DeepSeek V3 græder i sin pris, og en ny omkostningseffektiv mester er født!

Skriv et svar Annuller svar