Το DeepSeek R1 ήρθε πρώτο στο τεστ δημιουργικής γραφής και το o3 mini ήταν ακόμα χειρότερο από το o1 mini!

Το DeepSeek R1 κέρδισε το πρωτάθλημα στο τεστ αναφοράς δημιουργικής γραφής διηγήματος, ξεπερνώντας με επιτυχία τον προηγούμενο κυρίαρχο παίκτη Claude 3.5 Sonnet!

Πίνακας περιεχομένων

Δοκιμή αναφοράς

Το τεστ αναφοράς που σχεδίασε ο ερευνητής Lech Mazur δεν είναι ο μέσος διαγωνισμός γραφής.

Κάθε μοντέλο τεχνητής νοημοσύνης έπρεπε να ολοκληρώσει 500 σύντομες ιστορίες και κάθε ιστορία έπρεπε να ενσωματώσει έξυπνα 10 τυχαία καθορισμένα στοιχεία. Αυτό ήταν ένα δύσκολο έργο γραφής ανοικτού τύπου για την ΤΝ, το οποίο όχι μόνο απαιτούσε μια πλήρη ιστορία, αλλά επίσης εξασφάλιζε ότι όλα τα στοιχεία που είχαν ανατεθεί ενσωματώνονταν με φυσικό τρόπο

Μέθοδος κρίσης

Αυτή η δοκιμή αναφοράς χρησιμοποιεί ένα μοναδικό σύστημα βαθμολόγησης: έξι κορυφαία γλωσσικά μοντέλα ενεργούν ως κριτές, βαθμολογώντας διάφορες πτυχές της ιστορίας. Με άλλα λόγια, οι ηγέτες του κλάδου της ΤΝ κρίνουν την ίδια την ΤΝ, γεγονός που συνολικά παρέχει ένα σχετικά δίκαιο και συστηματικό πρότυπο αξιολόγησης.

Περιεχόμενο δοκιμής

Το παραπάνω διάγραμμα δείχνει την ανάλυση συσχέτισης των βαθμολογητών στο τεστ αναφοράς δημιουργικής γραφής. DeepSeek έχει συντελεστή συσχέτισης άνω του 0,93 με άλλα κύρια μοντέλα (Claude, GPT-4o, Gemini και Grok), γεγονός που υποδηλώνει ότι έχει εξαιρετικά συνεπή κριτήρια κρίσης με άλλα κορυφαία μοντέλα κατά την αξιολόγηση της ποιότητας της δημιουργικής γραφής, γεγονός που επιβεβαιώνει έμμεσα την αξιοπιστία του σε αυτό το τεστ.

Το παραπάνω διάγραμμα δείχνει τα αποτελέσματα του τεστ αναφοράς για τη συγγραφή δημιουργικής σύντομης ιστορίας. Κάθε μοντέλο τεχνητής νοημοσύνης έπρεπε να γράψει 500 ιστορίες, καθεμία από τις οποίες έπρεπε να περιέχει 10 καθορισμένα τυχαία στοιχεία. Τα σημεία του διαγράμματος δείχνουν την κατανομή της βαθμολογίας κάθε συμμετέχοντος μοντέλου ΤΝ για διαφορετικά μοντέλα βαθμολόγησης (αναπαριστώνται με διαφορετικά χρώματα).

Στη δοκιμή, Βαθιά S eek (σκούρα μπλε βαθμοί) σημείωσε καλές επιδόσεις, με τους περισσότερους βαθμούς της βαθμολογίας της συγκεντρωμένους στο ανώτερο μισό του διαγράμματος και σχετικά συγκεντρωμένους, γεγονός που δείχνει ένα σταθερό και υψηλό επίπεδο ικανότητας δημιουργικής γραφής.

Αυτές οι εξαιρετικές επιδόσεις του επέτρεψαν να ξεπεράσει με επιτυχία τον προηγούμενο πρωταθλητή, το Claude 3.5 Sonnet, και να γίνει ο νέος ηγέτης των δοκιμών αναφοράς.

Σε αυτό το διάγραμμα, κάθε γραμμή αντιπροσωπεύει ένα μοντέλο ΤΝ και κάθε στήλη αντιπροσωπεύει μια διάσταση αξιολόγησης (όπως ο χαρακτηρισμός, η συνοχή της πλοκής κ.λπ.). Το DeepSeek βρίσκεται στην επάνω μεσαία θέση του διαγράμματος, με συνολική πορτοκαλί-κίτρινη απόχρωση, υποδεικνύοντας ότι έχει επιτύχει εξαιρετικά αποτελέσματα στις περισσότερες διαστάσεις αξιολόγησης. Συγκεκριμένα, πέτυχε υψηλές βαθμολογίες σχεδόν 8 μονάδων στις βασικές διαστάσεις της εκτέλεσης (Q6), του χαρακτηρισμού (TA) και της ανάπτυξης της πλοκής (TJ). Παρόλο που μπορεί να μην είναι το πιο φωτεινό κίτρινο σε επιμέρους διαστάσεις, δεν έχει εμφανείς αδυναμίες.

Όπως μπορείτε να δείτε στο διάγραμμα, οι βαθμολογίες της ιστορίας του DeepSeek κατανέμονται κυρίως μεταξύ 7 και 9 βαθμών και η κατανομή είναι σχετικά συγκεντρωμένη. Είναι ενδιαφέρον ότι η γραμμή τάσης της είναι σχεδόν οριζόντια, γεγονός που δείχνει ότι η ποιότητα της ιστορίας του DeepSeek δεν σχετίζεται στενά με το μήκος της ιστορίας. Με άλλα λόγια, είτε γράφει μια μεγάλη ιστορία είτε μια μικρή ιστορία, το DeepSeek μπορεί να διατηρήσει μια σταθερά υψηλή ποιότητα παραγωγής. Αυτό δείχνει ότι Το DeepSeek εστιάζει περισσότερο στην ποιότητα παρά στην ποσότητα κατά τη δημιουργία και μπορεί να διατηρήσει εξαιρετικές επιδόσεις. σε ιστορίες διαφορετικής διάρκειας.

Γιατί DeepSeek R1 νίκη?

Κρίνοντας από τα αποτελέσματα των δοκιμών, το DeepSeek R1 είχε εκπληκτικές επιδόσεις:

Ολοκληρωμένες δυνατότητες ενσωμάτωσης ιστοριών: Η R1 έδειξε εκπληκτική ευελιξία και δημιουργικότητα όταν αντιμετώπιζε διαφορετικούς συνδυασμούς στοιχείων της ιστορίας.
Σταθερή ποιότητα εξόδου: Κρίνοντας από το διάγραμμα κατανομής της βαθμολογίας, το R1 όχι μόνο είχε υψηλή μέση βαθμολογία, αλλά και σταθερή απόδοση με λιγότερες διακυμάνσεις.
Εξαιρετική δημιουργική απόδοση: Σε αυτό το τεστ αναφοράς, οι ιστορίες που δημιουργήθηκαν από το R1 αξιολογήθηκαν μεταξύ των τριών καλύτερων συνολικά, γεγονός που αποδεικνύει την εξαιρετική ικανότητά του στη δημιουργική γραφή.

Πώς τα πήγαν οι άλλοι διαγωνιζόμενοι;

Εκτός από τη συναρπαστική αναμέτρηση μεταξύ του DeepSeek R1 και του Claude 3.5 Sonnet, αξίζει επίσης να σημειωθούν οι επιδόσεις άλλων μοντέλων:

Η σειρά Gemini είχε καλές επιδόσεις
Η σειρά Llama 3.x δυσκολεύτηκε λίγο σε αυτή τη δοκιμή
Το o3-mini δεν σημείωσε καλές επιδόσεις, καταλαμβάνοντας την 22η θέση.

Επιτέλους

Το επίτευγμα του DeepSeek R1 σε αυτό το τεστ μας έδειξε τις άπειρες δυνατότητες της τεχνητής νοημοσύνης στον τομέα της δημιουργικότητας. Παρόλο που η δημιουργία AI βρίσκεται ακόμη στο δρόμο της συνεχούς βελτίωσης, τέτοια αποτελέσματα μας έχουν ήδη κάνει να είμαστε γεμάτοι προσδοκίες για το μέλλον.

Για όσους θέλουν να μάθουν περισσότερα για τις λεπτομέρειες του τεστ, μπορούν να επισκεφθούν το GitHub του Lech Mazur για τα πλήρη δεδομένα και παραδείγματα των καλύτερων ιστοριών. Ας προσβλέπουμε μαζί σε περισσότερες ανακαλύψεις στη δημιουργική γραφή με τεχνητή νοημοσύνη!

Το DeepSeek R1 ήρθε πρώτο στο τεστ δημιουργικής γραφής και το o3 mini ήταν ακόμα χειρότερο από το o1 mini!

Δοκιμή αναφοράς

Μέθοδος κρίσης

Περιεχόμενο δοκιμής

Γιατί DeepSeek R1 νίκη?

Πώς τα πήγαν οι άλλοι διαγωνιζόμενοι;

Επιτέλους

Το DeepSeek κυκλοφόρησε τον πηγαίο κώδικα του, λεπτομερή εξήγηση του FlashMLA

Τι είναι το FlashMLA; Ένας ολοκληρωμένος οδηγός για τον αντίκτυπό του στους πυρήνες αποκωδικοποίησης AI

Πώς δημιουργήθηκε το DeepSeek; Ανάλυση του ιστορικού ανάπτυξης του DeepSeek

Το Gemini 2.0 κυριαρχεί στα charts, ενώ το DeepSeek V3 κλαίει στην τιμή του και ένας νέος οικονομικός πρωταθλητής γεννιέται!

The Showdown of the Top Four Models! A Review Showcases How Powerful Deepseek R1 Is

Έκτακτη είδηση! Το OpenAI κυκλοφόρησε σήμερα 2 νέα μοντέλα συμπερασμού: o3-mini και o3-mini-high.

Αφήστε μια απάντηση Ακύρωση απάντησης

Δοκιμή αναφοράς

Μέθοδος κρίσης

Περιεχόμενο δοκιμής

Γιατί DeepSeek R1 νίκη?

Πώς τα πήγαν οι άλλοι διαγωνιζόμενοι;

Επιτέλους

Παρόμοιες θέσεις

Αφήστε μια απάντηση Ακύρωση απάντησης