DeepSeek R1 tuli loovkirjutamise testis esimeseks ja o3 mini oli isegi halvem kui o1 mini!

DeepSeek R1 võitis meistritiitli loomingulise lühijutu kirjutamise võrdlustestis, edestades edukalt eelmist domineerivat mängijat Claude 3.5 Sonnet!

Sisukord

Võrdlustest

Teadlase Lech Mazuri koostatud võrdlusuuring ei ole tavaline kirjutamisvõistlus.

Iga tehisintellekti mudel pidi täitma 500 lühijuttu ja iga lugu pidi nutikalt sisaldama 10 juhuslikult määratud elementi. See oli tehisintellekti jaoks keeruline avatud kirjutamisülesanne, mis ei nõudnud mitte ainult täielikku loo koostamist, vaid ka seda, et kõik määratud elemendid oleksid loomulikult integreeritud.

Hindamismeetod

Selles võrdlustestis kasutatakse ainulaadset hindamissüsteemi: kuus parimat keelemudelit tegutsevad kohtunikena, kes hindavad loo erinevaid aspekte. Teisisõnu, tehisintellekti valdkonna juhid hindavad tehisintellekti ennast, mis annab üldiselt suhteliselt õiglase ja süstemaatilise hindamisstandardi.

Testi sisu

Ülaltoodud graafik näitab loovkirjutamise võrdluskatsete punktide korrelatsioonianalüüsi. DeepSeek korrelatsioonikoefitsient on üle 0,93 teiste peavoolumudelitega (Claude, GPT-4o, Gemini ja Grok), mis näitab, et selle hindamiskriteeriumid on loomingulise kirjutamise kvaliteedi hindamisel väga sarnased teiste tippmudelitega, mis kaudselt kinnitab selle usaldusväärsust selles testis.

Ülaltoodud tabelis on esitatud loovate lühijuttude kirjutamise võrdlustesti tulemused. Iga tehisintellekti mudel pidi kirjutama 500 lugu, millest igaüks peab sisaldama 10 kindlaksmääratud juhuslikku elementi. Graafiku punktid näitavad iga osalenud tehisintellekti mudeli punktide jaotust erinevate hindamismudelite puhul (mida tähistavad erinevad värvid).

Testis, Sügav S eek (tumesinised punktid) saavutas häid tulemusi, kusjuures enamik tema punktisummadest oli koondunud graafiku ülemisse poolde ja suhteliselt kontsentreeritud, mis näitab stabiilset ja kõrget loomingulise kirjutamisoskuse taset.

See silmapaistev jõudlus on võimaldanud sellel edukalt edestada eelmist meistrit, Claude 3.5 Sonnet'i, ja saada uueks võrdluskatsete liidriks.

Sellel diagrammil kujutab iga rida tehisintellekti mudelit ja iga tulp kujutab hindamismõõdet (nt iseloomustus, joonise sidusus jne). DeepSeek asub diagrammi ülemises keskosas, mille üldine värvus on oranžikollane, mis näitab, et see on saavutanud enamikus hindamisdimensioonides suurepäraseid tulemusi. Eelkõige saavutas ta kõrge, peaaegu 8 punkti suuruse tulemuse võtmedimensioonide täitmine (Q6), iseloomustus (TA) ja süžeede areng (TJ) puhul. Kuigi see ei pruugi üksikutes mõõtmetes olla kõige helekollane, ei ole tal siiski mingeid ilmseid nõrkusi.

Nagu graafikul näha, on DeepSeek loo punktisummad enamasti jaotunud 7 ja 9 punkti vahel ning see on suhteliselt kontsentreeritud. Huvitaval kombel on selle trendijoon peaaegu horisontaalne, mis näitab, et DeepSeek loo kvaliteet ei ole tihedalt seotud loo pikkusega. Teisisõnu, olenemata sellest, kas ta kirjutab pikka või lühikest lugu, suudab DeepSeek säilitada ühtlaselt kõrge kvaliteediga toodangu. See näitab, et DeepSeek keskendub loomisel rohkem kvaliteedile kui kvantiteedile ja suudab säilitada suurepärase jõudluse. erineva pikkusega lugudes.

Miks on DeepSeek R1 võita?

Testitulemuste põhjal võib öelda, et DeepSeek R1 töötas hämmastavalt:

Põhjalikud loo integreerimise võimalused: R1 näitas hämmastavat paindlikkust ja loovust, kui ta tegeles erinevate looelementide kombinatsioonidega.
Stabiilne väljundkvaliteet: Punktide jaotuse diagrammi põhjal otsustades ei olnud R1 mitte ainult kõrge keskmine hinne, vaid ka stabiilne ja vähemate kõikumistega tulemus.
Väljapaistev loominguline tulemuslikkus: Selles võrdlustestis jõudsid R1-i loodud lood kolme parima hulka, mis tõestab selle silmapaistvat võimekust loovkirjutamises.

Kuidas esinesid teised võistlejad?

Lisaks DeepSeek R1 ja Claude 3.5 Sonnet'i vahelisele põnevale heitlusele tasub märkida ka teiste mudelite jõudlust:

Gemini-seeria tulemused olid head
Lama 3.x seeria oli selles testis veidi raskustes.
o3-mini ei esinenud hästi, olles 22. kohal.

Lõpuks

DeepSeek R1 läbimurre selles testis on näidanud meile AI lõpmatuid võimalusi loovuse valdkonnas. Kuigi tehisintellekti loomine on veel pidevas arengus, on sellised tulemused juba praegu pannud meid täis ootusi tuleviku suhtes.

Need, kes tahavad rohkem teada saada testi üksikasjadest, võivad külastada Lech Mazuri GitHubi lehekülge, kus leiate täielikud andmed ja näited parimatest lugudest. Ootame koos rohkem läbimurdeid tehisintellekti loomingulises kirjutamises!

Sarnased postitused

DeepSeek R1 tuli loovkirjutamise testis esimeseks ja o3 mini oli isegi halvem kui o1 mini!

Võrdlustest

Hindamismeetod

Testi sisu

Miks on DeepSeek R1 võita?

Kuidas esinesid teised võistlejad?

Lõpuks

Esimene käivitamine! SiliconFlow X Huawei Cloud käivitavad ühiselt Ascend Cloudil põhinevad DeepSeek R1 & V3 järeldusteenused!

Tehnoloogia DeepSeek-R1 paljastas: paberi põhiprintsiibid on lahti võetud ja mudeli läbimurdelise jõudluse võti paljastatakse

Cathie Wood: DeepSeek lihtsalt kiirendab kulude vähendamise protsessi; Suure Depressiooniga võrreldav äärmuslikult kontsentreeritud turustruktuur muutub

Nelja parima mudeli võrdlus! Ülevaade Deepseek R1 võimast võimekusest

Google'i odav mudel Gemini 2.0 seeria ründab: võitlus suurte mudelite kuluefektiivsuse pärast teravneb

Gemini 2.0 domineerib edetabelites, samas kui DeepSeek V3 nutab oma hinda ja uus kuluefektiivne meister on sündinud!

Lisa kommentaar Tühista vastus