Ο Ali Qwen2.5-Max προσπερνά το DeepSeek-V3! Netizen: Η τεχνητή νοημοσύνη της Κίνας κλείνει γρήγορα το χάσμα

Μόλις τώρα, ένα άλλο εγχώριο μοντέλο προστέθηκε στη λίστα του Big Model Arena

από τον Αλί, Qwen2,5-Μέγ, που ξεπέρασε το DeepSeek-V3 και κατέλαβε την έβδομη θέση στη συνολική κατάταξη με συνολική βαθμολογία 1332.

Ξεπέρασε επίσης μοντέλα όπως το Claude 3.5 Sonnet και το Llama 3.1 405B με μια πτώση.

Προπαντός, υπερέχει στον προγραμματισμό και στα μαθηματικά, και κατατάσσεται στην πρώτη θέση μαζί με το Fullblood o1 και το DeepSeek-R1.

Το Chatbot Arena είναι μια μεγάλη πλατφόρμα δοκιμών απόδοσης μοντέλων που ξεκίνησε από LMSYS Org. Προς το παρόν ενσωματώνει περισσότερα από 190 μοντέλα και χρησιμοποιεί μοντέλα που ζευγαρώνονται σε ομάδες των δύο για να δοθούν στους χρήστες για τυφλή δοκιμή, με τους χρήστες να ψηφίζουν για τις ικανότητες των μοντέλων με βάση τις εμπειρίες συνομιλίας τους από την πραγματική ζωή.

Για το λόγο αυτό, το Chatbot Arena LLM Leaderboard είναι η πιο έγκυρη και σημαντική αρένα για τα κορυφαία μεγάλα μοντέλα του κόσμου.

Qwen 2,5-Max μπήκε επίσης στην πρώτη δεκάδα στο νέο που άνοιξε WebDev λίστα για ανάπτυξη διαδικτυακών εφαρμογών.

Το επίσημο σχόλιο της lmsys για αυτό είναι αυτό Η κινεζική τεχνητή νοημοσύνη κλείνει γρήγορα το χάσμα!

Οι χρήστες του Διαδικτύου που το έχουν χρησιμοποιήσει προσωπικά λένε ότι η απόδοση της Qwen είναι πιο σταθερή.

Κάποιοι λένε μάλιστα ότι η Qwen θα αντικαταστήσει σύντομα όλα τα συνηθισμένα μοντέλα στη Silicon Valley.

Πίνακας περιεχομένων

Τέσσερις ατομικές ικανότητες φτάνουν στην κορυφή

Την πρώτη και τη δεύτερη θέση στην πρώτη τριάδα της συνολικής λίστας κατέλαβε η οικογένεια Google Gemini, με τα GPT-4o και DeepSeek-R1 να ισοβαθμούν στην τρίτη θέση.

Το Qwen2.5-Max ισοφάρισε στην έβδομη θέση με το o1-preview, ελαφρώς πίσω από το πλήρες o1.

Ακολουθεί η απόδοση του Qwen2.5-Max σε κάθε μεμονωμένη κατηγορία.

Στο πιο λογικό μαθηματικά και κώδικας εργασίες, τα αποτελέσματα του Qwen2.5-Max ξεπέρασαν αυτά του o1-mini και ισοφάρισε στην πρώτη θέση με τα πλήρως φορτισμένα o1 και DeepSeek-R1.

Και μεταξύ των μοντέλων που ισοδυναμούν με την πρώτη θέση στη λίστα των μαθηματικών, το Qwen2.5-Max είναι το μόνο μοντέλο που δεν έχει λογική.

Αν κοιτάξετε προσεκτικά τα συγκεκριμένα αρχεία μάχης, μπορείτε επίσης να δείτε ότι το Qwen2.5-Max έχει ποσοστό νίκης 69% σε ικανότητα κωδικού έναντι του πλήρους αίματος o1.

Στο σύνθετη άμεση λέξη task, τα Qwen2.5-Max και o1-preview ισοβαθμούν στη δεύτερη θέση και, αν περιορίζεται στα αγγλικά, μπορεί να καταταχθεί πρώτη, στο ίδιο επίπεδο με τα o1-preview, DeepSeek-R1, κ.λπ.

Επιπλέον, το Qwen2.5-Max ισοβαθμεί στην πρώτη θέση με DeepSeek-R1 σε διάλογος πολλών στροφών; κατατάσσεται στην τρίτη θέση μακρύ κείμενο (όχι λιγότερα από 500 tokens), ξεπερνώντας το o1-preview.

Επιπλέον, ο Ali έδειξε επίσης την απόδοση του Qwen2.5-Max σε ορισμένες κλασικές λίστες στην τεχνική έκθεση.

Στη σύγκριση των μοντέλων εντολών, το Qwen2.5-Max βρίσκεται στο ίδιο επίπεδο ή υψηλότερο από το GPT-4o και το Claude 3.5-Sonnet σε σημεία αναφοράς όπως το Arena-Hard (παρόμοιο με τις ανθρώπινες προτιμήσεις) και το MMLU-Pro (γνώση πανεπιστημιακού επιπέδου).

Στη σύγκριση βασικών μοντέλων ανοιχτού κώδικα, το Qwen2.5-Max ξεπέρασε επίσης το DeepSeek-V3 σε γενικές γραμμές και ήταν πολύ μπροστά από το Llama 3.1-405B.

Όσον αφορά το βασικό μοντέλο, το Qwen2.5-Max έδειξε επίσης σημαντικό πλεονέκτημα στις περισσότερες δοκιμές αναφοράς (το βασικό μοντέλο του μοντέλου κλειστού κώδικα δεν είναι προσβάσιμο, επομένως μόνο το μοντέλο ανοιχτού κώδικα μπορεί να συγκριθεί).

Εξαιρετικός κώδικας/συμπεράσματα, υποστηρίζει Artifacts

Μετά την κυκλοφορία του Qwen2.5-Max, ένας μεγάλος αριθμός χρηστών του Διαδικτύου ήρθε να το δοκιμάσει.

Έχει βρεθεί ότι υπερέχει σε τομείς όπως ο κώδικας και το συμπέρασμα.

Για παράδειγμα, αφήστε το να γράψει ένα παιχνίδι σκάκι σε JavaScript.

Χάρις σε Τεχνουργήματα, ένα μικρό παιχνίδι που αναπτύχθηκε σε μία μόνο πρόταση μπορεί να παιχτεί αμέσως:

ο κώδικας που δημιουργεί είναι συχνά πιο εύκολο να διαβαστεί και να χρησιμοποιηθεί.

Το Qwen2.5-Max είναι γρήγορο και ακριβές όταν συνάγει σύνθετα μηνύματα:

Η ομάδα σας έχει 3 βήματα για να χειριστεί αιτήματα πελατών:

Συλλογή δεδομένων (στάδιο Α): 5 λεπτά ανά αίτημα.

Επεξεργασία (στάδιο Β): 10 λεπτά ανά αίτημα.

Επαλήθευση (στάδιο Γ): 8 λεπτά ανά αίτημα.

Η ομάδα αυτή τη στιγμή λειτουργεί διαδοχικά, αλλά εξετάζετε μια παράλληλη ροή εργασίας. Εάν αντιστοιχίσετε δύο άτομα σε κάθε στάδιο και επιτρέψετε μια παράλληλη ροή εργασίας, η απόδοση ανά ώρα θα αυξηθεί κατά 20%. Ωστόσο, η προσθήκη μιας παράλληλης ροής εργασίας θα κοστίσει 15% περισσότερο όσον αφορά τα γενικά έξοδα λειτουργίας. Λαμβάνοντας υπόψη το χρόνο και το κόστος, πρέπει να χρησιμοποιήσετε μια παράλληλη ροή εργασίας για να βελτιστοποιήσετε την απόδοση;

Το Qwen2.5-Max ολοκληρώνει ολόκληρο το συμπέρασμα σε λιγότερο από 30 δευτερόλεπτα, χωρίζοντας σαφώς τη συνολική διαδικασία σε πέντε βήματα: ανάλυση της τρέχουσας ροής εργασιών, ανάλυση παράλληλων ροών εργασίας, επιπτώσεις κόστους, συμβιβασμούς κόστους-αποτελεσματικότητας και συμπεράσματα.

Το τελικό συμπέρασμα καταλήγει γρήγορα: θα πρέπει να χρησιμοποιούνται παράλληλες ροές εργασίας.

Σε σύγκριση με το DeepSeek-V3, το οποίο είναι επίσης ένα μοντέλο χωρίς συμπέρασμα, το Qwen2.5-Max παρέχει πιο συνοπτική και γρήγορη απόκριση.

Ή αφήστε το να δημιουργήσει μια περιστρεφόμενη σφαίρα που αποτελείται από ψηφία ASCII. Το ψηφίο που βρίσκεται πιο κοντά στη γωνία θέασης είναι καθαρό λευκό, ενώ το πιο απομακρυσμένο σταδιακά γίνεται γκρι, με μαύρο φόντο.

Η καταμέτρηση του αριθμού των συγκεκριμένων γραμμάτων σε μια λέξη είναι ακόμα πιο εύκολη.

Εάν θέλετε να το δοκιμάσετε μόνοι σας, το Qwen2.5-Max είναι ήδη online στην πλατφόρμα Qwen Chat και μπορείτε να το δοκιμάσετε δωρεάν.

Οι εταιρικοί χρήστες μπορούν να καλέσουν το API μοντέλου Qwen2.5-Max στο Alibaba Cloud Bailian.

Παρόμοιες θέσεις

Uncategorized

Στον κύκλο της τεχνητής νοημοσύνης, το DeepSeek R1 ξεπέρασε σταθερά τους o1 και Claude στις φυσικές δοκιμές και έχουμε εισέλθει στη χρυσή εποχή του RL.

Μεzddeepseeker Φεβρουάριος 1, 2025Φεβρουάριος 1, 2025

Κανείς μας δεν περίμενε ότι έτσι θα ξεκινούσε το 2025 στον τομέα της τεχνητής νοημοσύνης. Το DeepSeek R1 είναι πραγματικά εκπληκτικό! Πρόσφατα, η "μυστηριώδης ανατολική δύναμη" DeepSeek "ελέγχει σκληρά" τη Silicon Valley. Ζήτησα από τον R1 να εξηγήσει λεπτομερώς το Πυθαγόρειο θεώρημα. Όλα αυτά έγιναν από την AI σε λιγότερο από 30 δευτερόλεπτα χωρίς καμία...

Uncategorized

Altman: Κάναμε λάθος για την τεχνητή νοημοσύνη ανοιχτού κώδικα! Το DeepSeek έκανε το OpenAI λιγότερο πλεονεκτικό, και το επόμενο είναι το GPT-5

Μεzddeepseeker Φεβρουάριος 1, 2025Φεβρουάριος 1, 2025

Το o3-mini έφτασε αργά το βράδυ και η OpenAI αποκάλυψε τελικά το τελευταίο της ατού. Κατά τη διάρκεια ενός Reddit AMA Q&A, ο Altman εξομολογήθηκε βαθιά ότι είχε σταθεί στη λάθος πλευρά της τεχνητής νοημοσύνης ανοιχτού κώδικα. Είπε ότι η εσωτερική στρατηγική του ανοιχτού κώδικα εξετάζεται και το μοντέλο θα συνεχίσει να αναπτύσσεται, αλλά...

Uncategorized

Πρώτη εκτόξευση! Η SiliconFlow X Huawei Cloud λανσάρει από κοινού τις υπηρεσίες εξαγωγής συμπερασμάτων DeepSeek R1 & V3 με βάση το Ascend Cloud!

Μεzddeepseeker Φεβρουάριος 1, 2025Φεβρουάριος 1, 2025

Τα DeepSeek-R1 και DeepSeek-V3 έχουν προκαλέσει παγκόσμια αίσθηση από την κυκλοφορία τους σε ανοικτό κώδικα. Είναι ένα δώρο από την ομάδα DeepSeek σε όλη την ανθρωπότητα και χαιρόμαστε ειλικρινά για την επιτυχία τους. Μετά από μέρες σκληρής δουλειάς από τις ομάδες Silicon Mobility και Huawei Cloud, σήμερα δίνουμε και στους Κινέζους χρήστες ένα κινέζικο...

Uncategorized

Qwen2.5-max vs DeepSeek R1: Μια βαθιά σύγκριση μοντέλων: πλήρης ανάλυση σεναρίων εφαρμογών

Μεzddeepseeker Φεβρουάριος 14, 2025Φεβρουάριος 14, 2025

Εισαγωγή Σήμερα, τα μεγάλα γλωσσικά μοντέλα (LLM) διαδραματίζουν κρίσιμο ρόλο. Στις αρχές του 2025, καθώς ο ανταγωνισμός για την τεχνητή νοημοσύνη εντάθηκε, η Alibaba παρουσίασε το νέο μοντέλο AI Qwen2.5-max και η DeepSeek, μια εταιρεία από το Hangzhou της Κίνας, κυκλοφόρησε το μοντέλο R1, το οποίο αντιπροσωπεύει την κορυφή της τεχνολογίας LLM. Το Deepseek R1 είναι ένα μοντέλο ανοιχτού κώδικα AI που έχει προσελκύσει…

Uncategorized

Ερμηνεία χαρτιού DeepSeek R1 & βασικά τεχνικά σημεία

Μεzddeepseeker Φεβρουάριος 9, 2025Φεβρουάριος 9, 2025

1 Ιστορικό Κατά τη διάρκεια του Εαρινό Φεστιβάλ, το DeepSeek R1 τράβηξε για άλλη μια φορά την ευρεία προσοχή, και ακόμη και το άρθρο ερμηνείας του DeepSeek V3 που γράψαμε προηγουμένως μεταδόθηκε επίσης και συζητήθηκε πολύ. Αν και έχουν γίνει πολλές αναλύσεις και αναπαραγωγές του DeepSeek R1, εδώ αποφασίσαμε να συγκεντρώσουμε κάποιες αντίστοιχες αναγνωστικές σημειώσεις. Θα χρησιμοποιήσουμε τρία…

Uncategorized

Paper-DeepSeek-R1: Κίνητρα για την ικανότητα συλλογισμού σε LLMs μέσω ενισχυτικής μάθησης

Μεdeepseeker Ιανουάριος 29, 2025Ιανουάριος 29, 2025

Περίληψη Το παρόν έγγραφο παρουσιάζει τα μοντέλα συλλογιστικής πρώτης γενιάς του DeepSeek: DeepSeek-R1-Zero και DeepSeek-R1. Το DeepSeek-R1-Zero, εκπαιδευμένο μέσω ενισχυτικής μάθησης (RL) μεγάλης κλίμακας χωρίς επιτηρούμενη λεπτομερή ρύθμιση (SFT), επιδεικνύει αξιοσημείωτες ικανότητες συλλογιστικής. Μέσω της RL, αναπτύσσει φυσικά ισχυρές συμπεριφορές συλλογισμού. Ωστόσο, αντιμετωπίζει προκλήσεις όπως η κακή αναγνωσιμότητα και η ανάμειξη της γλώσσας. Για την αντιμετώπιση αυτών των ζητημάτων και την ενίσχυση των επιδόσεων συλλογιστικής, αναπτύχθηκε το DeepSeek-R1,...

Τέσσερις ατομικές ικανότητες φτάνουν στην κορυφή

Εξαιρετικός κώδικας/συμπεράσματα, υποστηρίζει Artifacts

Παρόμοιες θέσεις

Αφήστε μια απάντηση Ακύρωση απάντησης