DeepSeek R1 het eerste gekom in die kreatiewe skryftoets, en o3 mini was selfs slegter as o1 mini!

DeepSeek R1 het die kampioenskap gewen in die kreatiewe kortverhaalskryf-maatstaftoets, wat die vorige dominante speler Claude 3.5 Sonnet suksesvol oortref het!

Inhoudsopgawe

Normtoets

Die maatstaftoets wat deur navorser Lech Mazur ontwerp is, is nie jou gemiddelde skryfkompetisie nie.

Elke KI-model moes 500 kortverhale voltooi, en elke storie moes slim 10 ewekansig toegewysde elemente insluit. Dit was 'n uitdagende oop-einde skryftaak vir die KI, wat nie net 'n volledige storielyn vereis het nie, maar ook verseker het dat al die toegewysde elemente natuurlik geïntegreer is

Beoordeling metode

Hierdie maatstaftoets gebruik 'n unieke puntestelsel: ses toptaalmodelle tree op as beoordelaars en beoordeel verskeie aspekte van die storie. Met ander woorde, die KI-industrieleiers beoordeel die KI self, wat oor die algemeen 'n relatief billike en sistematiese evalueringstandaard bied.

Toets inhoud

Die bostaande grafiek toon die korrelasie-analise van die puntemakers in die kreatiewe skryf-maatstaftoets. DeepSeek het 'n korrelasiekoëffisiënt van meer as 0.93 met ander hoofstroommodelle (Claude, GPT-4o, Gemini en Grok), wat aandui dat dit hoogs konsekwente beoordelingskriteria met ander topmodelle het wanneer die kwaliteit van kreatiewe skryfwerk beoordeel word, wat indirek die betroubaarheid daarvan bevestig in hierdie toets.

Die grafiek hierbo toon die resultate van die kreatiewe kortverhaalskryf-maatstaftoets. Elke KI-model moes 500 stories skryf, wat elkeen 10 gespesifiseerde ewekansige elemente moet bevat. Die punte in die grafiek toon die tellingverspreiding van elke deelnemende KI-model vir verskillende tellingmodelle (verteenwoordig deur verskillende kleure).

In die toets, Diep S eek (donkerblou punte) het goed gevaar, met die meeste van sy tellingpunte gekonsentreer in die boonste helfte van die grafiek en relatief gekonsentreerd, wat 'n stabiele en hoë vlak van kreatiewe skryfvermoë toon.

Hierdie uitstaande prestasie het dit in staat gestel om die vorige kampioen, Claude 3.5 Sonnet, suksesvol te oortref en die nuwe maatstaftoetsleier te word.

In hierdie grafiek verteenwoordig elke ry 'n KI-model, en elke kolom verteenwoordig 'n evalueringsdimensie (soos karakterisering, plotkoherensie, ens.). DeepSeek is in die boonste middel van die grafiek geleë, met 'n algehele oranje-geel tint, wat aandui dat dit uitstekende resultate in die meeste evalueringsdimensies behaal het. Dit het veral hoë tellings van byna 8 punte behaal in die sleuteldimensies van uitvoering (Q6), karakterisering (TA) en plotontwikkeling (TJ). Alhoewel dit dalk nie die helderste geel in individuele afmetings is nie, het dit geen ooglopende swakhede nie.

Soos jy in die grafiek kan sien, is DeepSeek se storietellings meestal tussen 7 en 9 punte versprei, en die verspreiding is relatief gekonsentreer. Interessant genoeg is sy tendenslyn amper horisontaal, wat aandui dat DeepSeek se storiekwaliteit nie nou verwant is aan die lengte van die storie nie. Met ander woorde, of dit nou die skryf van 'n lang storie of 'n kortverhaal is, DeepSeek kan 'n konsekwent hoë kwaliteit uitset handhaaf. Dit wys dit DeepSeek fokus meer op kwaliteit as kwantiteit wanneer dit geskep word, en kan uitstekende werkverrigting handhaaf in stories van verskillende lengtes.

Hoekom het DeepSeek R1 wen?

Te oordeel aan die toetsresultate, het DeepSeek R1 ongelooflik gevaar:

Omvattende storie-integrasie vermoëns: R1 het ongelooflike buigsaamheid en kreatiwiteit getoon wanneer verskillende kombinasies van storie-elemente hanteer is.
Stabiele uitsetkwaliteit: Te oordeel aan die tellingverspreidingskaart, het R1 nie net 'n hoë gemiddelde telling gehad nie, maar ook 'n stabiele prestasie met minder fluktuasie.
Uitstekende kreatiewe prestasie: In hierdie maatstaftoets is die stories wat deur R1 geskep is onder die top drie algeheel gegradeer, wat sy uitstaande vermoë in kreatiewe skryfwerk bewys.

Hoe het die ander deelnemers gevaar?

Benewens die opwindende kragmeting tussen DeepSeek R1 en Claude 3.5 Sonnet, is die prestasie van ander modelle ook opmerklik:

Die Gemini-reeks het goed gevaar
Die Llama 3.x-reeks het 'n bietjie gesukkel in hierdie toets
Die o3-mini het nie goed gevaar nie en was 22ste

Uiteindelik

DeepSeek R1 se deurbraak in hierdie toets het ons die oneindige moontlikhede van KI op die gebied van kreatiwiteit gewys. Alhoewel KI-skepping steeds op pad is van voortdurende verbetering, het sulke resultate ons reeds vol verwagtinge vir die toekoms gemaak.

Vir diegene wat meer wil leer oor die besonderhede van die toets, kan jy Lech Mazur se GitHub besoek vir die volledige data en voorbeelde van die beste stories. Kom ons sien saam uit na meer deurbrake in KI kreatiewe skryfwerk!

Soortgelyke plasings

Ongekategoriseer

Die wêreld se hoofstroom KI-produkte fokus op ontleding en omvattende riglyne vir gebruikerservaring (insluitend DeepSeek en GPT)

Deurzddeepseeker 10 Februarie 202510 Februarie 2025

Funksieposisionering en kernvoordeelontleding ChatGPT (OpenAI) – die globale maatstaf vir alledaagse ChatGPT Tegniese gene: generatiewe KI gebaseer op die GPT-reeks groot modelle, met algemene gespreksvaardighede en logiese redenasie as sy kernvoordele. Veeltalige verwerking: presteer die beste in Engels, met voortdurende verbetering in Chinees; maar ons beveel aan om Engels te gebruik om ...

Ongekategoriseer

a16z dialoog met 27-jarige HUB: AI Agent het 'n groot hefboomeffek, en langtermynpryse sal gekoppel word aan arbeidskoste

Deurzddeepseeker 8 Februarie 20258 Februarie 2025

Hoogtepunte AI Agent hervorm die kliënt-ervaring Jesse Zhang: Hoe word 'n Agent eintlik saamgestel? Ons siening is dat dit mettertyd meer en meer soos 'n natuurlike taalgebaseerde Agent sal word, want dit is hoe die groot taalmodelle (LLM'e) opgelei word. Op die lang termyn, as jy 'n super intelligente agent het wat ...

Ongekategoriseer

DeepSeek TOP17 Beste Alternatiewe: Omvattende Analise (2025)

Deurdeepseeker 6 Februarie 20256 Februarie 2025

Inleiding In die vinnig ontwikkelende landskap van kunsmatige intelligensie het DeepSeek as 'n kragtige taalmodel na vore gekom. Hierdie omvattende ontleding ondersoek die top 17 alternatiewe vir DeepSeek, en ondersoek hul unieke kenmerke, vermoëns en gebruiksgevalle. Ons navorsing fokus op beide internasionale en Chinese platforms wat DeepSeek-integrasie of soortgelyke vermoëns bied. Top Alternatiewe Ontleding 1….

Ongekategoriseer

Cathie Wood: DeepSeek versnel net die kosteverminderingsproses; die uiterste gekonsentreerde markstruktuur vergelykbaar met die Groot Depressie sal verander

Deurzddeepseeker 8 Februarie 20258 Februarie 2025

Hoogtepunte Mededinging met DeepSeek is goed vir die VSA Cathie Wood: Ek dink dit wys dat die koste van innovasie dramaties daal, en dat hierdie neiging reeds begin het. Byvoorbeeld, voor DeepSeek het die koste van opleiding van kunsmatige intelligensie met 75% per jaar gedaal, en die koste van afleiding het selfs met 85% gedaal tot ...

Ongekategoriseer

DeepSeek het dit gedoen! OpenAI erken geslote bron fout, voorpuntvoordeel word kleiner

Deurzddeepseeker 2 Februarie 20252 Februarie 2025

Nadat OpenAI die o3-mini-model vrygestel het, het sy uitvoerende hoof, Sam Altman, hoofnavorsingsbeampte Mark Chen, hoofprodukbeampte Kevin Weil; Visepresident van Ingenieurswese Srinivas Narayanan, hoof van API-navorsing Michelle Pokrass, en hoof van navorsing Hongyu Ren, het 'n aanlyn tegniese V&A op reddit, een van die wêreld se grootste omvattende forums, gedoen. Die hoofonderwerpe…

Ongekategoriseer

Hoe is DeepSeek geskep? 'n Ontleding van DeepSeek se groeigeskiedenis

Deurzddeepseeker 3 Februarie 20253 Februarie 2025

In die toekoms sal daar meer en meer hardcore-innovasie wees. Dit is dalk nie nou maklik om te verstaan nie, want die hele sosiale groep moet deur feite opgevoed word. Wanneer hierdie samelewing mense wat hardcore innoveer toelaat om sukses te behaal, sal die kollektiewe ingesteldheid verander. Ons het net 'n klomp feite en 'n proses nodig ....

Normtoets

Beoordeling metode

Toets inhoud

Hoekom het DeepSeek R1 wen?

Hoe het die ander deelnemers gevaar?

Uiteindelik

Soortgelyke plasings

Maak 'n opvolg-bydrae Kanselleer die opvolg-bydrae