DeepSeek R1 è arrivato primo nel test di scrittura creativa, e o3 mini è stato addirittura peggiore di o1 mini!

DeepSeek R1 ha vinto il campionato nel test di benchmark per la scrittura di racconti creativi, superando con successo il precedente giocatore dominante Claude 3.5 Sonnet!

Indice dei contenuti

Test di benchmark

Il test di riferimento ideato dal ricercatore Lech Mazur non è una gara di scrittura come le altre.

A ogni modello di IA è stato richiesto di completare 500 racconti e ogni racconto doveva incorporare abilmente 10 elementi assegnati a caso. Si è trattato di un compito di scrittura aperto e impegnativo per l'IA, che non solo ha richiesto una trama completa, ma ha anche assicurato che tutti gli elementi assegnati fossero integrati in modo naturale.

Metodo di giudizio

Questo test di riferimento utilizza un sistema di punteggio unico: sei modelli linguistici di alto livello fungono da giudici, assegnando un punteggio a vari aspetti della storia. In altre parole, i leader del settore dell'IA giudicano l'IA stessa, il che fornisce uno standard di valutazione relativamente equo e sistematico.

Contenuto del test

Il grafico qui sopra mostra l'analisi di correlazione dei punteggi nel test di riferimento per la scrittura creativa. DeepSeek ha un coefficiente di correlazione superiore a 0,93 con altri modelli mainstream (Claude, GPT-4o, Gemini e Grok), indicando che ha criteri di giudizio molto coerenti con altri modelli di punta nel giudicare la qualità della scrittura creativa, il che conferma indirettamente la sua affidabilità in questo test.

Il grafico qui sopra mostra i risultati del test di benchmark per la scrittura di racconti creativi. A ogni modello di intelligenza artificiale è stato richiesto di scrivere 500 racconti, ognuno dei quali doveva contenere 10 elementi casuali specificati. I punti nel grafico mostrano la distribuzione dei punteggi di ciascun modello di intelligenza artificiale partecipante per i diversi modelli di punteggio (rappresentati da colori diversi).

Nel test, Profondo S eek (punti blu scuro) ha ottenuto buoni risultati, con la maggior parte dei suoi punti concentrati nella metà superiore del grafico e relativamente concentrati, mostrando un livello stabile ed elevato di capacità di scrittura creativa.

Queste prestazioni eccezionali gli hanno permesso di superare il precedente campione, Claude 3.5 Sonnet, e di diventare il nuovo leader dei test di benchmark.

In questo grafico, ogni riga rappresenta un modello di intelligenza artificiale e ogni colonna rappresenta una dimensione di valutazione (come caratterizzazione, coerenza della trama, ecc.). DeepSeek si trova nella parte centrale del grafico, con una tonalità arancione-gialla, che indica che ha ottenuto risultati eccellenti nella maggior parte delle dimensioni di valutazione. In particolare, ha ottenuto punteggi elevati di quasi 8 punti nelle dimensioni chiave dell'esecuzione (Q6), della caratterizzazione (TA) e dello sviluppo della trama (TJ). Sebbene non sia il giallo più brillante nelle singole dimensioni, non presenta punti deboli evidenti.

Come si può vedere nel grafico, i punteggi delle storie di DeepSeek sono per lo più distribuiti tra 7 e 9 punti, e la distribuzione è relativamente concentrata. È interessante notare che la linea di tendenza è quasi orizzontale, a indicare che la qualità del racconto di DeepSeek non è strettamente correlata alla lunghezza del racconto. In altre parole, sia che scriva un racconto lungo o un racconto breve, DeepSeek è in grado di mantenere una qualità costantemente elevata. Questo dimostra che DeepSeek si concentra più sulla qualità che sulla quantità quando crea e può mantenere prestazioni eccellenti. in storie di diversa lunghezza.

Perché DeepSeek R1 vincere?

A giudicare dai risultati dei test, l'DeepSeek R1 si è comportato in modo sorprendente:

Funzionalità complete di integrazione della storia: R1 ha dimostrato un'incredibile flessibilità e creatività nel gestire diverse combinazioni di elementi della storia.
Qualità di uscita stabile: A giudicare dal grafico di distribuzione dei punteggi, R1 non solo ha ottenuto un punteggio medio elevato, ma anche una performance stabile con minori fluttuazioni.
Prestazioni creative eccezionali: In questo test di riferimento, le storie create da R1 sono state classificate tra le prime tre in assoluto, il che dimostra la sua straordinaria capacità di scrittura creativa.

Come si sono comportati gli altri concorrenti?

Oltre all'entusiasmante prova di forza tra DeepSeek R1 e Claude 3.5 Sonnet, vale la pena di notare anche le prestazioni di altri modelli:

La serie Gemini si è comportata bene
La serie Llama 3.x ha faticato un po' in questo test.
L'o3-mini non si è comportato bene, piazzandosi al 22° posto.

Infine

Il successo di DeepSeek R1 in questo test ci ha mostrato le infinite possibilità dell'IA nel campo della creatività. Sebbene la creazione di IA sia ancora in fase di continuo miglioramento, questi risultati ci hanno già fatto ben sperare per il futuro.

Per chi volesse saperne di più sui dettagli del test, è possibile visitare GitHub di Lech Mazur per i dati completi e gli esempi delle storie migliori. Aspettiamo insieme altre scoperte nel campo della scrittura creativa con l'intelligenza artificiale!

Messaggi simili

Senza categoria

La sfida dei quattro migliori modelli! Una recensione mostra la potenza del Deepseek R1

Dazddeepseeker 1 giugno 20251 giugno 2025

Negli ultimi giorni, Deepseek-R1 0528 è stato ufficialmente rilasciato come open source. Su LiveCodeBench, le sue prestazioni sono quasi alla pari con quelle di o3 di OpenAI (alte); nel benchmark multilingua di Aider, regge il confronto con Claude Opus. Quando è stato lanciato sul sito web ufficiale, ne abbiamo testato rapidamente le funzionalità front-end e le abbiamo trovate eccezionalmente...

Senza categoria

Ultime notizie! Il ricercatore DeepSeek rivela online: l'addestramento R1 ha richiesto solo due o tre settimane e una potente evoluzione di R1 zero è stata osservata durante le vacanze del capodanno cinese

Dazddeepseeker 4 Febbraio 20254 Febbraio 2025

Ultime notizie! Il ricercatore DeepSeek rivela online: l'addestramento R1 ha richiesto solo due o tre settimane e una potente evoluzione di R1 zero è stata osservata durante le vacanze del capodanno cinese Proprio ora, abbiamo notato che il ricercatore DeepSeek Daya Guo ha risposto alle domande dei netizen su DeepSeek R1 e sui piani futuri dell'azienda. Possiamo solo dire...

Senza categoria

Cathie Wood: DeepSeek sta solo accelerando il processo di riduzione dei costi; la struttura di mercato estremamente concentrata paragonabile alla Grande Depressione cambierà

Dazddeepseeker 8 Febbraio 20258 Febbraio 2025

In evidenza La concorrenza con DeepSeek è positiva per gli USA Cathie Wood: Penso che dimostri che il costo dell'innovazione sta calando drasticamente e che questa tendenza è già iniziata. Ad esempio, prima di DeepSeek, il costo della formazione dell'intelligenza artificiale è sceso di 75% all'anno e il costo dell'inferenza è addirittura sceso di 85% a…

Senza categoria

Il segreto dietro DeepSeek 1 | Dettagli su DeepSeekMath e GRPO

Dazddeepseeker 9 Febbraio 20259 Febbraio 2025

Oggi vorrei condividere un articolo di DeepSeek, intitolato DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Questo articolo introduce DeepSeekMath 7B, che è pre-addestrato su DeepSeek-Coder-Base-v1.5 7B basato su una raccolta di 120B token correlati alla matematica, linguaggio naturale e dati di codice. Il modello ha ottenuto un punteggio sorprendente di 51,7% a livello competitivo…

Senza categoria

DeepSeek TOP17 Le migliori alternative: analisi completa (2025)

Dadeepseeker 6 Febbraio 20256 Febbraio 2025

Introduzione Nel panorama in rapida evoluzione dell'intelligenza artificiale, DeepSeek è emerso come un potente modello linguistico. Questa analisi completa esplora le 17 migliori alternative a DeepSeek, esaminandone le caratteristiche, le capacità e i casi d'uso unici. La nostra ricerca si concentra sia sulle piattaforme internazionali che su quelle cinesi che offrono l'integrazione DeepSeek o capacità simili. Analisi delle migliori alternative 1….

Senza categoria

Ultime notizie! OpenAI ha rilasciato oggi due nuovi modelli di inferenza: o3-mini e o3-mini-high.

Dazddeepseeker 1 febbraio 20251 febbraio 2025

o3-mini e o3-mini (high) saranno rilasciati oggi. Gli utenti abituali riceveranno anche o3-mini, mentre gli utenti plus potranno utilizzare o3-mini (high). o3-mini (high) ha circa 200 punti in più rispetto a o1 su Codeforce, è più veloce di o1 e ha prestazioni migliori nel coding e nella matematica, ma il costo è ancora al livello di o1-mini....

Test di benchmark

Metodo di giudizio

Contenuto del test

Perché DeepSeek R1 vincere?

Come si sono comportati gli altri concorrenti?

Infine

Messaggi simili

Lascia un commento Annulla risposta