DeepSeek R1 a ieșit primul la testul de scriere creativă, iar o3 mini a fost chiar mai rău decât o1 mini!

DeepSeek R1 a câștigat campionatul în testul benchmark de scriere a povestirii scurte creative, depășind cu succes jucătorul dominant anterior Claude 3.5 Sonnet!

Tabla de conținut

Test de referință

Testul de referință conceput de cercetătorul Lech Mazur nu este un concurs de scriere obișnuit.

Fiecare model AI a trebuit să realizeze 500 de povestiri scurte, iar fiecare povestire a trebuit să încorporeze în mod inteligent 10 elemente atribuite aleatoriu. Aceasta a fost o sarcină de scriere deschisă provocatoare pentru AI, care nu numai că a necesitat o poveste completă, dar s-a asigurat, de asemenea, că toate elementele atribuite au fost integrate în mod natural

Metoda de evaluare

Acest test de referință utilizează un sistem unic de notare: șase modele lingvistice de top acționează ca judecători, notând diferite aspecte ale poveștii. Cu alte cuvinte, liderii din industria inteligenței artificiale judecă inteligența artificială însăși, ceea ce, în ansamblu, oferă un standard de evaluare relativ corect și sistematic.

Conținutul testului

Graficul de mai sus prezintă analiza de corelație a punctajelor obținute la testul de referință de scriere creativă. DeepSeek are un coeficient de corelație de peste 0,93 cu alte modele principale (Claude, GPT-4o, Gemini și Grok), ceea ce indică faptul că are criterii de judecată foarte coerente cu alte modele de top atunci când judecă calitatea scrierii creative, ceea ce confirmă indirect fiabilitatea sa în acest test.

Graficul de mai sus prezintă rezultatele testului de referință pentru scrierea de povestiri scurte creative. Fiecare model AI a trebuit să scrie 500 de povestiri, fiecare dintre acestea trebuind să conțină 10 elemente aleatorii specificate. Punctele din grafic arată distribuția scorurilor fiecărui model AI participant pentru diferite modele de notare (reprezentate prin culori diferite).

În test, Adânc S eek (puncte albastru închis) a obținut rezultate bune, cu majoritatea punctelor de scor concentrate în jumătatea superioară a graficului și relativ concentrate, demonstrând un nivel stabil și ridicat al capacității de scriere creativă.

Această performanță remarcabilă i-a permis să depășească cu succes campionul anterior, Claude 3.5 Sonnet, și să devină noul lider al testelor de referință.

În acest grafic, fiecare rând reprezintă un model AI, iar fiecare coloană reprezintă o dimensiune de evaluare (cum ar fi caracterizarea, coerența parcelei etc.). DeepSeek se află în partea de mijloc superioară a graficului, cu o nuanță generală portocaliu-galben, indicând faptul că a obținut rezultate excelente în majoritatea dimensiunilor de evaluare. În special, a obținut scoruri ridicate, de aproape 8 puncte, în dimensiunile-cheie ale execuției (Q6), caracterizării (TA) și dezvoltării intrigii (TJ). Deși poate că nu este cel mai strălucitor galben în dimensiunile individuale, nu are nicio slăbiciune evidentă.

După cum puteți vedea în grafic, scorurile poveștilor DeepSeek sunt distribuite în principal între 7 și 9 puncte, iar distribuția este relativ concentrată. Interesant este faptul că linia sa de tendință este aproape orizontală, ceea ce indică faptul că calitatea povestirii lui DeepSeek nu este strâns legată de lungimea povestirii. Cu alte cuvinte, indiferent dacă scrie o poveste lungă sau o poveste scurtă, DeepSeek poate menține un rezultat de calitate ridicată în mod constant. Acest lucru arată că DeepSeek se concentrează mai mult pe calitate decât pe cantitate atunci când creează și poate menține o performanță excelentă în povestiri de diferite lungimi.

De ce DeepSeek R1 câștig?

Judecând după rezultatele testelor, DeepSeek R1 a avut performanțe uimitoare:

Capacități cuprinzătoare de integrare a poveștilor: R1 a dat dovadă de o flexibilitate și o creativitate uimitoare atunci când a avut de-a face cu diferite combinații de elemente ale poveștii.
Calitate de ieșire stabilă: Judecând după graficul de distribuție a scorurilor, R1 nu numai că a avut un scor mediu ridicat, dar și o performanță stabilă, cu mai puține fluctuații.
Performanță creativă remarcabilă: În acest test de referință, poveștile create de R1 au fost clasate printre primele trei, ceea ce dovedește capacitatea sa remarcabilă în scrierea creativă.

Cum s-au descurcat ceilalți concurenți?

În plus față de confruntarea interesantă dintre DeepSeek R1 și Claude 3.5 Sonnet, performanța altor modele este, de asemenea, demnă de remarcat:

Seria Gemini s-a descurcat bine
Seria Llama 3.x a avut ceva probleme în acest test
Modelul o3-mini nu a avut performanțe bune, clasându-se pe locul 22

În cele din urmă

Progresul lui DeepSeek R1 în acest test ne-a arătat posibilitățile infinite ale AI în domeniul creativității. Deși creația AI se află încă pe calea îmbunătățirii continue, astfel de rezultate ne-au făcut deja să avem așteptări mari pentru viitor.

Pentru cei care doresc să afle mai multe despre detaliile testului, puteți vizita GitHub-ul lui Lech Mazur pentru datele complete și exemple ale celor mai bune povești. Să așteptăm împreună mai multe descoperiri în domeniul scrierii creative AI!

Posturi similare

Fără categorie

Modelul low-cost al Google, seria Gemini 2.0, atacă: lupta pentru rentabilitate la modelele mari se intensifică

Prinzddeepseeker 8 februarie 20258 februarie 2025

Costul ridicat al utilizării modelelor AI mari este un motiv major pentru care multe aplicații AI nu au fost încă implementate și promovate. Alegerea performanței extreme înseamnă costuri uriașe pentru puterea de calcul, ceea ce duce la costuri mari de utilizare pe care utilizatorii obișnuiți nu le pot accepta. Competiția pentru modele mari de IA este ca un război fără fum. După…

Fără categorie

Ce poate realiza Deepseek? Nici măcar OpenAI nu o poate face?

Prinzddeepseeker 10 februarie 202510 februarie 2025

Valoarea adevărată a DeepSeek este subestimată! DeepSeek-R1 a adus, fără îndoială, un nou val de entuziasm pe piață. Nu numai că așa-numitele ținte relevante ale beneficiarilor cresc brusc, dar unii oameni chiar au dezvoltat cursuri și software legate de DeepSeek, în încercarea de a câștiga bani din acesta. Credem că, deși aceste fenomene au o...

Fără categorie

DeepSeek a reușit! OpenAI recunoaște greșeala sursei închise, avantajul de lider devine mai mic

Prinzddeepseeker februarie 2, 2025februarie 2, 2025

După ce OpenAI a lansat modelul o3-mini, CEO-ul Sam Altman, Chief Research Officer Mark Chen, Chief Product Officer Kevin Weil; Vicepreședintele departamentului de inginerie Srinivas Narayanan, Head of API Research Michelle Pokrass, și Head of Research Hongyu Ren, au efectuat o Q&A tehnică online pe reddit, unul dintre cele mai mari forumuri cuprinzătoare din lume. Principalele subiecte...

Fără categorie

OpenAI o3-mini vs. DeepSeek-R1: Cine este regele noii generații de modele AI?

Prinzddeepseeker februarie 1, 2025februarie 1, 2025

o3-mini este aici, cu impulsul unui challenger Pe 31 ianuarie, OpenAI a lansat noul model mare o3-mini și a oferit unele dintre funcțiile sale gratuit tuturor utilizatorilor ChatGPT. Deși există o limită privind numărul de interogări, aceasta permite utilizatorilor să experimenteze cel mai recent model comercial al OpenAI cât mai curând posibil....

Fără categorie

Actualizare DeepSeek-R1-0528: Gândire mai profundă, raționament mai puternic

Prinzddeepseeker 29 mai 202529 mai 2025

Modelul DeepSeek R1 a suferit o actualizare minoră, versiunea actuală fiind DeepSeek-R1-0528. Când accesați pagina web sau aplicația DeepSeek, activați funcția „Deep Thinking” din interfața de dialog pentru a experimenta cea mai recentă versiune. Ponderile modelului DeepSeek-R1-0528 au fost încărcate pe HuggingFace. În ultimele patru luni, DeepSeek-R1 a suferit...

Fără categorie

Produsele de inteligență artificială mainstream din lume se concentrează pe analiză și ghiduri cuprinzătoare privind experiența utilizatorului (inclusiv DeepSeek și GPT)

Prinzddeepseeker 10 februarie 202510 februarie 2025

Poziționarea funcției și analiza avantajelor de bază ChatGPT (OpenAI) – punctul de referință global pentru chatGPT polivalent Gene tehnice: IA generativă bazată pe seria GPT de modele mari, cu abilități generale de conversație și raționament logic ca avantaje principale. Prelucrare multilingvă: funcționează cel mai bine în limba engleză, cu îmbunătățiri continue în chineză; dar vă recomandăm să folosiți engleza pentru...

Test de referință

Metoda de evaluare

Conținutul testului

De ce DeepSeek R1 câștig?

Cum s-au descurcat ceilalți concurenți?

În cele din urmă

Posturi similare

Lasă un răspuns Anulează răspunsul