Μόλις τώρα, ένα άλλο εγχώριο μοντέλο προστέθηκε στη λίστα του Big Model Arena

από τον Αλί, Qwen2,5-Μέγ, που ξεπέρασε το DeepSeek-V3 και κατέλαβε την έβδομη θέση στη συνολική κατάταξη με συνολική βαθμολογία 1332.

Ξεπέρασε επίσης μοντέλα όπως το Claude 3.5 Sonnet και το Llama 3.1 405B με μια πτώση.

Προπαντός, υπερέχει στον προγραμματισμό και στα μαθηματικά, και κατατάσσεται στην πρώτη θέση μαζί με το Fullblood o1 και το DeepSeek-R1.

Το Chatbot Arena είναι μια μεγάλη πλατφόρμα δοκιμών απόδοσης μοντέλων που ξεκίνησε από LMSYS Org. Προς το παρόν ενσωματώνει περισσότερα από 190 μοντέλα και χρησιμοποιεί μοντέλα που ζευγαρώνονται σε ομάδες των δύο για να δοθούν στους χρήστες για τυφλή δοκιμή, με τους χρήστες να ψηφίζουν για τις ικανότητες των μοντέλων με βάση τις εμπειρίες συνομιλίας τους από την πραγματική ζωή.

Για το λόγο αυτό, το Chatbot Arena LLM Leaderboard είναι η πιο έγκυρη και σημαντική αρένα για τα κορυφαία μεγάλα μοντέλα του κόσμου.

Qwen 2,5-Max μπήκε επίσης στην πρώτη δεκάδα στο νέο που άνοιξε WebDev λίστα για ανάπτυξη διαδικτυακών εφαρμογών.

Το επίσημο σχόλιο της lmsys για αυτό είναι αυτό Η κινεζική τεχνητή νοημοσύνη κλείνει γρήγορα το χάσμα!

Οι χρήστες του Διαδικτύου που το έχουν χρησιμοποιήσει προσωπικά λένε ότι η απόδοση της Qwen είναι πιο σταθερή.

Κάποιοι λένε μάλιστα ότι η Qwen θα αντικαταστήσει σύντομα όλα τα συνηθισμένα μοντέλα στη Silicon Valley.

Τέσσερις ατομικές ικανότητες φτάνουν στην κορυφή

Την πρώτη και τη δεύτερη θέση στην πρώτη τριάδα της συνολικής λίστας κατέλαβε η οικογένεια Google Gemini, με τα GPT-4o και DeepSeek-R1 να ισοβαθμούν στην τρίτη θέση.

Το Qwen2.5-Max ισοφάρισε στην έβδομη θέση με το o1-preview, ελαφρώς πίσω από το πλήρες o1.

Ακολουθεί η απόδοση του Qwen2.5-Max σε κάθε μεμονωμένη κατηγορία.

Στο πιο λογικό μαθηματικά και κώδικας εργασίες, τα αποτελέσματα του Qwen2.5-Max ξεπέρασαν αυτά του o1-mini και ισοφάρισε στην πρώτη θέση με τα πλήρως φορτισμένα o1 και DeepSeek-R1.

Και μεταξύ των μοντέλων που ισοδυναμούν με την πρώτη θέση στη λίστα των μαθηματικών, το Qwen2.5-Max είναι το μόνο μοντέλο που δεν έχει λογική.

Αν κοιτάξετε προσεκτικά τα συγκεκριμένα αρχεία μάχης, μπορείτε επίσης να δείτε ότι το Qwen2.5-Max έχει ποσοστό νίκης 69% σε ικανότητα κωδικού έναντι του πλήρους αίματος o1.

Στο σύνθετη άμεση λέξη task, τα Qwen2.5-Max και o1-preview ισοβαθμούν στη δεύτερη θέση και, αν περιορίζεται στα αγγλικά, μπορεί να καταταχθεί πρώτη, στο ίδιο επίπεδο με τα o1-preview, DeepSeek-R1, κ.λπ.

Επιπλέον, το Qwen2.5-Max ισοβαθμεί στην πρώτη θέση με DeepSeek-R1 σε διάλογος πολλών στροφών; κατατάσσεται στην τρίτη θέση μακρύ κείμενο (όχι λιγότερα από 500 tokens), ξεπερνώντας το o1-preview.

Επιπλέον, ο Ali έδειξε επίσης την απόδοση του Qwen2.5-Max σε ορισμένες κλασικές λίστες στην τεχνική έκθεση.

Στη σύγκριση των μοντέλων εντολών, το Qwen2.5-Max βρίσκεται στο ίδιο επίπεδο ή υψηλότερο από το GPT-4o και το Claude 3.5-Sonnet σε σημεία αναφοράς όπως το Arena-Hard (παρόμοιο με τις ανθρώπινες προτιμήσεις) και το MMLU-Pro (γνώση πανεπιστημιακού επιπέδου).

Στη σύγκριση βασικών μοντέλων ανοιχτού κώδικα, το Qwen2.5-Max ξεπέρασε επίσης το DeepSeek-V3 σε γενικές γραμμές και ήταν πολύ μπροστά από το Llama 3.1-405B.

Όσον αφορά το βασικό μοντέλο, το Qwen2.5-Max έδειξε επίσης σημαντικό πλεονέκτημα στις περισσότερες δοκιμές αναφοράς (το βασικό μοντέλο του μοντέλου κλειστού κώδικα δεν είναι προσβάσιμο, επομένως μόνο το μοντέλο ανοιχτού κώδικα μπορεί να συγκριθεί).

Εξαιρετικός κώδικας/συμπεράσματα, υποστηρίζει Artifacts

Μετά την κυκλοφορία του Qwen2.5-Max, ένας μεγάλος αριθμός χρηστών του Διαδικτύου ήρθε να το δοκιμάσει.

Έχει βρεθεί ότι υπερέχει σε τομείς όπως ο κώδικας και το συμπέρασμα.

Για παράδειγμα, αφήστε το να γράψει ένα παιχνίδι σκάκι σε JavaScript.

Χάρις σε Τεχνουργήματα, ένα μικρό παιχνίδι που αναπτύχθηκε σε μία μόνο πρόταση μπορεί να παιχτεί αμέσως:

ο κώδικας που δημιουργεί είναι συχνά πιο εύκολο να διαβαστεί και να χρησιμοποιηθεί.

Το Qwen2.5-Max είναι γρήγορο και ακριβές όταν συνάγει σύνθετα μηνύματα:

Η ομάδα σας έχει 3 βήματα για να χειριστεί αιτήματα πελατών:

Συλλογή δεδομένων (στάδιο Α): 5 λεπτά ανά αίτημα.

Επεξεργασία (στάδιο Β): 10 λεπτά ανά αίτημα.

Επαλήθευση (στάδιο Γ): 8 λεπτά ανά αίτημα.

Η ομάδα αυτή τη στιγμή λειτουργεί διαδοχικά, αλλά εξετάζετε μια παράλληλη ροή εργασίας. Εάν αντιστοιχίσετε δύο άτομα σε κάθε στάδιο και επιτρέψετε μια παράλληλη ροή εργασίας, η απόδοση ανά ώρα θα αυξηθεί κατά 20%. Ωστόσο, η προσθήκη μιας παράλληλης ροής εργασίας θα κοστίσει 15% περισσότερο όσον αφορά τα γενικά έξοδα λειτουργίας. Λαμβάνοντας υπόψη το χρόνο και το κόστος, πρέπει να χρησιμοποιήσετε μια παράλληλη ροή εργασίας για να βελτιστοποιήσετε την απόδοση;

Το Qwen2.5-Max ολοκληρώνει ολόκληρο το συμπέρασμα σε λιγότερο από 30 δευτερόλεπτα, χωρίζοντας σαφώς τη συνολική διαδικασία σε πέντε βήματα: ανάλυση της τρέχουσας ροής εργασιών, ανάλυση παράλληλων ροών εργασίας, επιπτώσεις κόστους, συμβιβασμούς κόστους-αποτελεσματικότητας και συμπεράσματα.

Το τελικό συμπέρασμα καταλήγει γρήγορα: θα πρέπει να χρησιμοποιούνται παράλληλες ροές εργασίας.

Σε σύγκριση με το DeepSeek-V3, το οποίο είναι επίσης ένα μοντέλο χωρίς συμπέρασμα, το Qwen2.5-Max παρέχει πιο συνοπτική και γρήγορη απόκριση.

Ή αφήστε το να δημιουργήσει μια περιστρεφόμενη σφαίρα που αποτελείται από ψηφία ASCII. Το ψηφίο που βρίσκεται πιο κοντά στη γωνία θέασης είναι καθαρό λευκό, ενώ το πιο απομακρυσμένο σταδιακά γίνεται γκρι, με μαύρο φόντο.

Η καταμέτρηση του αριθμού των συγκεκριμένων γραμμάτων σε μια λέξη είναι ακόμα πιο εύκολη.

Εάν θέλετε να το δοκιμάσετε μόνοι σας, το Qwen2.5-Max είναι ήδη online στην πλατφόρμα Qwen Chat και μπορείτε να το δοκιμάσετε δωρεάν.

Οι εταιρικοί χρήστες μπορούν να καλέσουν το API μοντέλου Qwen2.5-Max στο Alibaba Cloud Bailian.

Παρόμοιες θέσεις

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *