DeepSeek R1 werd eerste in de creatief schrijven test, en o3 mini was nog slechter dan o1 mini!

DeepSeek R1 won het kampioenschap in de benchmarktest voor het schrijven van creatieve korte verhalen, en overtrof daarmee met succes de vorige dominante speler Claude 3.5 Sonnet!

Inhoudsopgave

Benchmarktest

De benchmarktest, ontworpen door onderzoeker Lech Mazur, is geen doorsnee schrijfwedstrijd.

Elk AI-model moest 500 korte verhalen schrijven en in elk verhaal moesten 10 willekeurig toegewezen elementen op een slimme manier worden verwerkt. Dit was een uitdagende open schrijftaak voor de AI, die niet alleen een complete verhaallijn vereiste, maar er ook voor zorgde dat alle toegewezen elementen op een natuurlijke manier werden geïntegreerd.

Beoordelingsmethode

Deze benchmarktest maakt gebruik van een uniek scoresysteem: zes toptaalmodellen fungeren als juryleden en scoren verschillende aspecten van het verhaal. Met andere woorden, de top van de AI-industrie beoordeelt de AI zelf, wat over het algemeen een relatief eerlijke en systematische beoordelingsstandaard oplevert.

Inhoud test

De bovenstaande grafiek toont de correlatieanalyse van de scorers in de creatief schrijven benchmarktest. DeepSeek heeft een correlatiecoëfficiënt van meer dan 0,93 met andere gangbare modellen (Claude, GPT-4o, Gemini en Grok), wat aangeeft dat het zeer consistente beoordelingscriteria heeft met andere topmodellen bij het beoordelen van de kwaliteit van creatief schrijven, wat indirect de betrouwbaarheid in deze test bevestigt.

De bovenstaande grafiek toont de resultaten van de benchmarktest voor het schrijven van creatieve korte verhalen. Elk AI-model moest 500 verhalen schrijven, die elk 10 gespecificeerde willekeurige elementen moesten bevatten. De punten in de grafiek tonen de scoreverdeling van elk deelnemend AI-model voor verschillende scoringsmodellen (weergegeven door verschillende kleuren).

In de test, Diep S eek (donkerblauwe punten) presteerde goed, met de meeste scorepunten geconcentreerd in de bovenste helft van de grafiek en relatief geconcentreerd, waaruit een stabiel en hoog niveau van creatieve schrijfvaardigheid blijkt.

Dankzij deze uitstekende prestaties is het in staat geweest om de vorige kampioen, Claude 3.5 Sonnet, met succes te overtreffen en de nieuwe leider in benchmarktests te worden.

In deze grafiek stelt elke rij een AI-model voor en elke kolom een evaluatiedimensie (zoals karakterisering, plotcoherentie, enz.). DeepSeek staat in het bovenste midden van de grafiek, met een algemene oranje-gele tint, wat aangeeft dat het uitstekende resultaten heeft behaald in de meeste evaluatiedimensies. Het behaalde met name hoge scores van bijna 8 punten in de hoofddimensies uitvoering (Q6), karakterisering (TA) en plotontwikkeling (TJ). Hoewel het misschien niet het helderste geel is in individuele dimensies, heeft het geen duidelijke zwakke punten.

Zoals je kunt zien in de grafiek, zijn de verhaalscores van DeepSeek meestal verdeeld tussen 7 en 9 punten, en de verdeling is relatief geconcentreerd. Interessant is dat de trendlijn bijna horizontaal is, wat aangeeft dat de verhaalkwaliteit van DeepSeek niet nauw samenhangt met de lengte van het verhaal. Met andere woorden, of het nu een lang verhaal of een kort verhaal schrijft, DeepSeek kan een constante hoge kwaliteit van zijn output handhaven. Dit toont aan dat DeepSeek richt zich bij het maken meer op kwaliteit dan op kwantiteit en kan uitstekende prestaties blijven leveren in verhalen van verschillende lengte.

Waarom DeepSeek R1 winnen?

Afgaande op de testresultaten presteerde DeepSeek R1 verbazingwekkend:

Uitgebreide verhaalintegratiemogelijkheden: R1 toonde verbazingwekkende flexibiliteit en creativiteit bij het omgaan met verschillende combinaties van verhaalelementen.
Stabiele uitvoerkwaliteit: Te oordelen naar de scoreverdeling had R1 niet alleen een hoge gemiddelde score, maar ook een stabiele prestatie met minder schommelingen.
Uitstekende creatieve prestaties: In deze benchmarktest behoorden de verhalen van R1 tot de top drie, wat bewijst dat R1 uitstekend is in creatief schrijven.

Hoe presteerden de andere deelnemers?

Naast de spannende krachtmeting tussen DeepSeek R1 en Claude 3.5 Sonnet zijn ook de prestaties van andere modellen het vermelden waard:

De Gemini-serie presteerde goed
De Llama 3.x serie worstelde een beetje in deze test
De o3-mini presteerde niet goed en stond op de 22e plaats

Eindelijk

De doorbraak van DeepSeek R1 in deze test heeft ons de oneindige mogelijkheden van AI op het gebied van creativiteit laten zien. Hoewel AI-creatie zich nog steeds op het pad van voortdurende verbetering bevindt, hebben dergelijke resultaten ons nu al vol verwachtingen voor de toekomst gemaakt.

Wie meer wil weten over de details van de test, kan Lech Mazur's GitHub bezoeken voor de volledige gegevens en voorbeelden van de beste verhalen. Laten we samen uitkijken naar meer doorbraken in AI creatief schrijven!

Vergelijkbare berichten

Uncategorized

Het low-cost model van Google, de Gemini 2.0-serie, valt aan: de strijd om kosteneffectiviteit in grote modellen wordt heviger

Doorzddeepseeker 8 februari 20258 februari 2025

De hoge kosten van het gebruik van grote AI-modellen zijn een belangrijke reden waarom veel AI-toepassingen nog niet zijn geïmplementeerd en gepromoot. Kiezen voor extreme prestaties betekent enorme kosten voor rekenkracht, wat leidt tot hoge gebruikskosten die gewone gebruikers niet kunnen accepteren. De concurrentie om grote AI-modellen is als een oorlog zonder rook. Na…

Uncategorized

DeepSeek-R1-technologie onthuld: kernprincipes van het artikel worden afgebroken en de sleutel tot baanbrekende modelprestaties wordt onthuld

Doorzddeepseeker 9 februari 20259 februari 2025

Vandaag delen we DeepSeek R1, Titel: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning capability of LLM via reinforcement learning. Dit artikel introduceert de eerste generatie redeneermodellen van DeepSeek, DeepSeek-R1-Zero en DeepSeek-R1. Het DeepSeek-R1-Zero-model werd getraind via grootschalige reinforcement learning (RL) zonder supervised fine-tuning (SFT) als eerste stap,…

Uncategorized

Gemini 2.0 domineert de hitlijsten, terwijl de DeepSeek V3 schreeuwt om zijn prijs. Een nieuwe, kosteneffectieve kampioen is geboren!

Doorzddeepseeker 8 februari 20258 februari 2025

De Google Gemini 2.0-familie is eindelijk compleet! Het domineert de hitlijsten zodra het wordt uitgebracht. Te midden van de achtervolging en blokkades van Deepseek, Qwen en o3, bracht Google vanmorgen vroeg drie modellen in één keer uit: Gemini 2.0 Pro, Gemini 2.0 Flash en Gemini 2.0 Flash-Lite. Op de grote model LMSYS-ranglijsten, Gemini…

Uncategorized

Hoe is DeepSeek ontstaan? Een analyse van de groeigeschiedenis van DeepSeek

Doorzddeepseeker 3 februari 20253 februari 2025

In de toekomst zal er steeds meer hardcore innovatie zijn. Het is nu misschien niet zo makkelijk te begrijpen, omdat de hele sociale groep moet worden opgevoed met feiten. Wanneer deze maatschappij mensen die hardcore innoveren succesvol laat zijn, zal de collectieve denkwijze veranderen. We hebben alleen een hoop feiten en een proces nodig ....

Uncategorized

Altman: We hadden het mis over open source AI! DeepSeek heeft OpenAI minder voordelig gemaakt, en de volgende is GPT-5.

Doorzddeepseeker 1 februari 20251 februari 2025

o3-mini kwam laat op de avond en OpenAI onthulde eindelijk zijn nieuwste troef. Tijdens een Reddit AMA Q&A bekende Altman diep dat hij aan de verkeerde kant van de open source AI had gestaan. Hij zei dat de interne strategie van open source wordt overwogen en dat het model verder ontwikkeld zal worden, maar...

Uncategorized

OpenAI o3-mini vs. DeepSeek-R1: Wie is de koning van de nieuwe generatie AI-modellen?

Doorzddeepseeker 1 februari 20251 februari 2025

o3-mini is er, met het momentum van een uitdager Op 31 januari heeft OpenAI het gloednieuwe grote model o3-mini vrijgegeven en een aantal functies ervan gratis beschikbaar gesteld aan alle ChatGPT-gebruikers. Hoewel er een limiet is op het aantal query's, kunnen gebruikers OpenAI's nieuwste commerciële model zo snel mogelijk ervaren....

Benchmarktest

Beoordelingsmethode

Inhoud test

Waarom DeepSeek R1 winnen?

Hoe presteerden de andere deelnemers?

Eindelijk

Vergelijkbare berichten

Geef een reactie Reactie annuleren