DeepSeek R1 a câștigat campionatul în testul benchmark de scriere a povestirii scurte creative, depășind cu succes jucătorul dominant anterior Claude 3.5 Sonnet!

Test de referință

Testul de referință conceput de cercetătorul Lech Mazur nu este un concurs de scriere obișnuit.

Fiecare model AI a trebuit să realizeze 500 de povestiri scurte, iar fiecare povestire a trebuit să încorporeze în mod inteligent 10 elemente atribuite aleatoriu. Aceasta a fost o sarcină de scriere deschisă provocatoare pentru AI, care nu numai că a necesitat o poveste completă, dar s-a asigurat, de asemenea, că toate elementele atribuite au fost integrate în mod natural

Metoda de evaluare

Acest test de referință utilizează un sistem unic de notare: șase modele lingvistice de top acționează ca judecători, notând diferite aspecte ale poveștii. Cu alte cuvinte, liderii din industria inteligenței artificiale judecă inteligența artificială însăși, ceea ce, în ansamblu, oferă un standard de evaluare relativ corect și sistematic.

Conținutul testului

Graficul de mai sus prezintă analiza de corelație a punctajelor obținute la testul de referință de scriere creativă. DeepSeek are un coeficient de corelație de peste 0,93 cu alte modele principale (Claude, GPT-4o, Gemini și Grok), ceea ce indică faptul că are criterii de judecată foarte coerente cu alte modele de top atunci când judecă calitatea scrierii creative, ceea ce confirmă indirect fiabilitatea sa în acest test.

Graficul de mai sus prezintă rezultatele testului de referință pentru scrierea de povestiri scurte creative. Fiecare model AI a trebuit să scrie 500 de povestiri, fiecare dintre acestea trebuind să conțină 10 elemente aleatorii specificate. Punctele din grafic arată distribuția scorurilor fiecărui model AI participant pentru diferite modele de notare (reprezentate prin culori diferite).

În test, AdâncSeek (puncte albastru închis) a obținut rezultate bune, cu majoritatea punctelor de scor concentrate în jumătatea superioară a graficului și relativ concentrate, demonstrând un nivel stabil și ridicat al capacității de scriere creativă.

Această performanță remarcabilă i-a permis să depășească cu succes campionul anterior, Claude 3.5 Sonnet, și să devină noul lider al testelor de referință.

În acest grafic, fiecare rând reprezintă un model AI, iar fiecare coloană reprezintă o dimensiune de evaluare (cum ar fi caracterizarea, coerența parcelei etc.). DeepSeek se află în partea de mijloc superioară a graficului, cu o nuanță generală portocaliu-galben, indicând faptul că a obținut rezultate excelente în majoritatea dimensiunilor de evaluare. În special, a obținut scoruri ridicate, de aproape 8 puncte, în dimensiunile-cheie ale execuției (Q6), caracterizării (TA) și dezvoltării intrigii (TJ). Deși poate că nu este cel mai strălucitor galben în dimensiunile individuale, nu are nicio slăbiciune evidentă.

După cum puteți vedea în grafic, scorurile poveștilor DeepSeek sunt distribuite în principal între 7 și 9 puncte, iar distribuția este relativ concentrată. Interesant este faptul că linia sa de tendință este aproape orizontală, ceea ce indică faptul că calitatea povestirii lui DeepSeek nu este strâns legată de lungimea povestirii. Cu alte cuvinte, indiferent dacă scrie o poveste lungă sau o poveste scurtă, DeepSeek poate menține un rezultat de calitate ridicată în mod constant. Acest lucru arată că DeepSeek se concentrează mai mult pe calitate decât pe cantitate atunci când creează și poate menține o performanță excelentă în povestiri de diferite lungimi.

De ce DeepSeek R1 câștig?

Judecând după rezultatele testelor, DeepSeek R1 a avut performanțe uimitoare:

  • Capacități cuprinzătoare de integrare a poveștilor: R1 a dat dovadă de o flexibilitate și o creativitate uimitoare atunci când a avut de-a face cu diferite combinații de elemente ale poveștii.
  • Calitate de ieșire stabilă: Judecând după graficul de distribuție a scorurilor, R1 nu numai că a avut un scor mediu ridicat, dar și o performanță stabilă, cu mai puține fluctuații.
  • Performanță creativă remarcabilă: În acest test de referință, poveștile create de R1 au fost clasate printre primele trei, ceea ce dovedește capacitatea sa remarcabilă în scrierea creativă.

Cum s-au descurcat ceilalți concurenți?

În plus față de confruntarea interesantă dintre DeepSeek R1 și Claude 3.5 Sonnet, performanța altor modele este, de asemenea, demnă de remarcat:

  • Seria Gemini s-a descurcat bine
  • Seria Llama 3.x a avut ceva probleme în acest test
  • Modelul o3-mini nu a avut performanțe bune, clasându-se pe locul 22

În cele din urmă

Progresul lui DeepSeek R1 în acest test ne-a arătat posibilitățile infinite ale AI în domeniul creativității. Deși creația AI se află încă pe calea îmbunătățirii continue, astfel de rezultate ne-au făcut deja să avem așteptări mari pentru viitor.

Pentru cei care doresc să afle mai multe despre detaliile testului, puteți vizita GitHub-ul lui Lech Mazur pentru datele complete și exemple ale celor mai bune povești. Să așteptăm împreună mai multe descoperiri în domeniul scrierii creative AI!

Posturi similare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *