
DeepSeek R1 het die kampioenskap gewen in die kreatiewe kortverhaalskryf-maatstaftoets, wat die vorige dominante speler Claude 3.5 Sonnet suksesvol oortref het!
Normtoets
Die maatstaftoets wat deur navorser Lech Mazur ontwerp is, is nie jou gemiddelde skryfkompetisie nie.
Elke KI-model moes 500 kortverhale voltooi, en elke storie moes slim 10 ewekansig toegewysde elemente insluit. Dit was 'n uitdagende oop-einde skryftaak vir die KI, wat nie net 'n volledige storielyn vereis het nie, maar ook verseker het dat al die toegewysde elemente natuurlik geïntegreer is
Beoordeling metode
Hierdie maatstaftoets gebruik 'n unieke puntestelsel: ses toptaalmodelle tree op as beoordelaars en beoordeel verskeie aspekte van die storie. Met ander woorde, die KI-industrieleiers beoordeel die KI self, wat oor die algemeen 'n relatief billike en sistematiese evalueringstandaard bied.
Toets inhoud

Die bostaande grafiek toon die korrelasie-analise van die puntemakers in die kreatiewe skryf-maatstaftoets. DeepSeek het 'n korrelasiekoëffisiënt van meer as 0.93 met ander hoofstroommodelle (Claude, GPT-4o, Gemini en Grok), wat aandui dat dit hoogs konsekwente beoordelingskriteria met ander topmodelle het wanneer die kwaliteit van kreatiewe skryfwerk beoordeel word, wat indirek die betroubaarheid daarvan bevestig in hierdie toets.

Die grafiek hierbo toon die resultate van die kreatiewe kortverhaalskryf-maatstaftoets. Elke KI-model moes 500 stories skryf, wat elkeen 10 gespesifiseerde ewekansige elemente moet bevat. Die punte in die grafiek toon die tellingverspreiding van elke deelnemende KI-model vir verskillende tellingmodelle (verteenwoordig deur verskillende kleure).
In die toets, DiepSeek (donkerblou punte) het goed gevaar, met die meeste van sy tellingpunte gekonsentreer in die boonste helfte van die grafiek en relatief gekonsentreerd, wat 'n stabiele en hoë vlak van kreatiewe skryfvermoë toon.
Hierdie uitstaande prestasie het dit in staat gestel om die vorige kampioen, Claude 3.5 Sonnet, suksesvol te oortref en die nuwe maatstaftoetsleier te word.

In hierdie grafiek verteenwoordig elke ry 'n KI-model, en elke kolom verteenwoordig 'n evalueringsdimensie (soos karakterisering, plotkoherensie, ens.). DeepSeek is in die boonste middel van die grafiek geleë, met 'n algehele oranje-geel tint, wat aandui dat dit uitstekende resultate in die meeste evalueringsdimensies behaal het. Dit het veral hoë tellings van byna 8 punte behaal in die sleuteldimensies van uitvoering (Q6), karakterisering (TA) en plotontwikkeling (TJ). Alhoewel dit dalk nie die helderste geel in individuele afmetings is nie, het dit geen ooglopende swakhede nie.

Soos jy in die grafiek kan sien, is DeepSeek se storietellings meestal tussen 7 en 9 punte versprei, en die verspreiding is relatief gekonsentreer. Interessant genoeg is sy tendenslyn amper horisontaal, wat aandui dat DeepSeek se storiekwaliteit nie nou verwant is aan die lengte van die storie nie. Met ander woorde, of dit nou die skryf van 'n lang storie of 'n kortverhaal is, DeepSeek kan 'n konsekwent hoë kwaliteit uitset handhaaf. Dit wys dit DeepSeek fokus meer op kwaliteit as kwantiteit wanneer dit geskep word, en kan uitstekende werkverrigting handhaaf in stories van verskillende lengtes.
Hoekom het DeepSeek R1 wen?
Te oordeel aan die toetsresultate, het DeepSeek R1 ongelooflik gevaar:
- Omvattende storie-integrasie vermoëns: R1 het ongelooflike buigsaamheid en kreatiwiteit getoon wanneer verskillende kombinasies van storie-elemente hanteer is.
- Stabiele uitsetkwaliteit: Te oordeel aan die tellingverspreidingskaart, het R1 nie net 'n hoë gemiddelde telling gehad nie, maar ook 'n stabiele prestasie met minder fluktuasie.
- Uitstekende kreatiewe prestasie: In hierdie maatstaftoets is die stories wat deur R1 geskep is onder die top drie algeheel gegradeer, wat sy uitstaande vermoë in kreatiewe skryfwerk bewys.
Hoe het die ander deelnemers gevaar?
Benewens die opwindende kragmeting tussen DeepSeek R1 en Claude 3.5 Sonnet, is die prestasie van ander modelle ook opmerklik:
- Die Gemini-reeks het goed gevaar
- Die Llama 3.x-reeks het 'n bietjie gesukkel in hierdie toets
- Die o3-mini het nie goed gevaar nie en was 22ste

Uiteindelik
DeepSeek R1 se deurbraak in hierdie toets het ons die oneindige moontlikhede van KI op die gebied van kreatiwiteit gewys. Alhoewel KI-skepping steeds op pad is van voortdurende verbetering, het sulke resultate ons reeds vol verwagtinge vir die toekoms gemaak.
Vir diegene wat meer wil leer oor die besonderhede van die toets, kan jy Lech Mazur se GitHub besoek vir die volledige data en voorbeelde van die beste stories. Kom ons sien saam uit na meer deurbrake in KI kreatiewe skryfwerk!