Ali Qwen2.5-Max sorpassa DeepSeek-V3! Netizen: l'IA cinese sta rapidamente colmando il divario

Proprio ora, un altro modello nazionale è stato aggiunto all'elenco Big Model Arena

da Ali, Qwen2.5-Massimo, che ha superato DeepSeek-V3 e si è classificato settimo nella classifica generale con un punteggio totale di 1332.

Ha superato in un colpo solo anche modelli come Claude 3.5 Sonnet e Llama 3.1 405B.

In particolare, eccelle nella programmazione e nella matematica, ed è classificato al primo posto insieme a Fullblood o1 e DeepSeek-R1.

Chatbot Arena è una piattaforma di test delle prestazioni di grandi modelli lanciata da Organizzazione LMSYSAttualmente integra più di 190 modelli e utilizza modelli accoppiati in team da due da fornire agli utenti per test alla cieca, con gli utenti che votano sulle capacità dei modelli in base alle loro esperienze di conversazione nella vita reale.

Per questo motivo, la classifica LLM della Chatbot Arena è l'arena più autorevole e importante per le migliori modelle di grandi dimensioni del mondo.

Qwen 2.5-Max è entrato anche nella top ten della nuova apertura Sviluppo Web elenco per lo sviluppo di applicazioni web.

Il commento ufficiale di lmsys su questo è che L’intelligenza artificiale cinese sta rapidamente colmando il divario!

Gli internauti che l'hanno utilizzato personalmente affermano che le prestazioni di Qwen sono più stabili.

C'è addirittura chi sostiene che Qwen sostituirà presto tutti i modelli tradizionali nella Silicon Valley.

Indice dei contenuti

Quattro abilità individuali raggiungono la vetta

Il primo e il secondo posto nella top three della classifica generale sono stati conquistati dalla famiglia Google Gemini, con GPT-4o e DeepSeek-R1 a pari merito al terzo posto.

Qwen2.5-Max si è piazzato al settimo posto a pari merito con o1-preview, leggermente dietro a full o1.

Di seguito vengono presentate le prestazioni di Qwen2.5-Max in ogni singola categoria.

Nella maniera più logica matematica e codice Nei compiti, i risultati di Qwen2.5-Max hanno superato quelli di o1-mini, e si è classificato al primo posto a pari merito con o1 completamente carico e DeepSeek-R1.

E tra i modelli a pari merito al primo posto nella classifica matematica, Qwen2.5-Max è l'unico modello non ragionante.

Esaminando attentamente i dati specifici delle battaglie, si può anche notare che Qwen2.5-Max ha una percentuale di vittorie di 69% nell'abilità di codice contro il purosangue o1.

Nel parola di prompt complessa task, Qwen2.5-Max e o1-preview si classificano a pari merito al secondo posto, e se fosse limitato all'inglese, potrebbe classificarsi al primo posto, alla pari di o1-preview, DeepSeek-R1, ecc.

Inoltre, Qwen2.5-Max è a pari merito con DeepSeek-R1 per il primo posto in dialogo multi-turn; si colloca al terzo posto in testo lungo (non meno di 500 token), superando o1-preview.

Inoltre, Ali ha anche mostrato le prestazioni di Qwen2.5-Max in alcune liste classiche nel rapporto tecnico.

Nel confronto dei modelli di comando, Qwen2.5-Max è allo stesso livello o più alto di GPT-4o e Claude 3.5-Sonnet in benchmark come Arena-Hard (simile alle preferenze umane) e MMLU-Pro (conoscenza di livello universitario).

Nel confronto del modello base open source, Qwen2.5-Max ha superato anche DeepSeek-V3 in tutti gli aspetti ed è risultato nettamente superiore a Llama 3.1-405B.

Per quanto riguarda il modello base, anche Qwen2.5-Max ha mostrato un vantaggio significativo nella maggior parte dei test di benchmark (il modello base del modello closed source non è accessibile, quindi può essere confrontato solo il modello open source).

Codice/inferenza eccezionale, supporta gli artefatti

Dopo il lancio di Qwen2.5-Max, un gran numero di internauti è andato a provarlo.

Si è scoperto che eccelle in aree quali la codifica e l'inferenza.

Ad esempio, lasciamo che scriva una partita a scacchi in JavaScript.

Grazie a Artefatti, un piccolo gioco sviluppato in una singola frase può essere giocato immediatamente:

il codice generato è spesso più facile da leggere e da usare.

Qwen2.5-Max è veloce e preciso quando deduce richieste complesse:

Il tuo team deve seguire 3 passaggi per gestire le richieste dei clienti:

Raccolta dati (fase A): 5 minuti per richiesta.

Elaborazione (fase B): 10 minuti per richiesta.

Verifica (fase C): 8 minuti per richiesta.

Il team attualmente lavora in sequenza, ma stai considerando un flusso di lavoro parallelo. Se assegni due persone a ogni fase e consenti un flusso di lavoro parallelo, l'output orario aumenterà di 20%. Tuttavia, aggiungere un flusso di lavoro parallelo costerà 15% in più in termini di overhead operativo. Considerando il tempo e il costo, dovresti usare un flusso di lavoro parallelo per ottimizzare l'efficienza?

Qwen2.5-Max completa l'intera inferenza in meno di 30 secondi, suddividendo chiaramente il processo complessivo in cinque fasi: analisi del flusso di lavoro corrente, analisi dei flussi di lavoro paralleli, implicazioni sui costi, compromessi tra costi ed efficienza e conclusioni.

La conclusione finale è presto detta: è opportuno utilizzare flussi di lavoro paralleli.

Rispetto a DeepSeek-V3, che è anch'esso un modello non inferenziale, Qwen2.5-Max fornisce una risposta più concisa e rapida.

Oppure lascia che generi una sfera rotante composta da cifre ASCII. La cifra più vicina all'angolo di visione è bianco puro, mentre quella più lontana diventa gradualmente grigia, con uno sfondo nero.

Contare il numero di lettere specifiche in una parola è ancora più facile.

Se vuoi provarlo tu stesso, Qwen2.5-Max è già online sulla piattaforma Qwen Chat e può essere provato gratuitamente.

Gli utenti aziendali possono richiamare l'API del modello Qwen2.5-Max su Alibaba Cloud Bailian.

Messaggi simili

Senza categoria

Il modello low cost di Google, la serie Gemini 2.0, è all'attacco: si intensifica la battaglia per la convenienza dei modelli di grandi dimensioni

Dazddeepseeker 8 Febbraio 20258 Febbraio 2025

L'elevato costo dell'utilizzo di grandi modelli di IA è una delle ragioni principali per cui molte applicazioni di IA non sono ancora state implementate e promosse. Scegliere prestazioni estreme significa costi di potenza di calcolo enormi, che portano a costi di utilizzo elevati che gli utenti comuni non possono accettare. La competizione per i grandi modelli di IA è come una guerra senza fumo. Dopo…

Senza categoria

La sfida dei quattro migliori modelli! Una recensione mostra la potenza del Deepseek R1

Dazddeepseeker 1 giugno 20251 giugno 2025

Negli ultimi giorni, Deepseek-R1 0528 è stato ufficialmente rilasciato come open source. Su LiveCodeBench, le sue prestazioni sono quasi alla pari con quelle di o3 di OpenAI (alte); nel benchmark multilingua di Aider, regge il confronto con Claude Opus. Quando è stato lanciato sul sito web ufficiale, ne abbiamo testato rapidamente le funzionalità front-end e le abbiamo trovate eccezionalmente...

Senza categoria

Che cosa è FlashMLA? Una guida completa al suo impatto sui kernel di decodifica AI

Dadeepseeker 24 Febbraio 202524 Febbraio 2025

FlashMLA ha rapidamente attirato l'attenzione nel mondo dell'intelligenza artificiale, in particolare nel campo dei grandi modelli linguistici (LLM). Questo strumento innovativo, sviluppato da DeepSeek, funge da kernel di decodifica ottimizzato progettato per le GPU Hopper, chip ad alte prestazioni comunemente utilizzati nei calcoli di intelligenza artificiale. FlashMLA si concentra sull'elaborazione efficiente di sequenze di lunghezza variabile, rendendolo particolarmente adatto...

Senza categoria

Ultime notizie! OpenAI ha rilasciato oggi due nuovi modelli di inferenza: o3-mini e o3-mini-high.

Dazddeepseeker 1 febbraio 20251 febbraio 2025

o3-mini e o3-mini (high) saranno rilasciati oggi. Gli utenti abituali riceveranno anche o3-mini, mentre gli utenti plus potranno utilizzare o3-mini (high). o3-mini (high) ha circa 200 punti in più rispetto a o1 su Codeforce, è più veloce di o1 e ha prestazioni migliori nel coding e nella matematica, ma il costo è ancora al livello di o1-mini....

Senza categoria

Cathie Wood: DeepSeek sta solo accelerando il processo di riduzione dei costi; la struttura di mercato estremamente concentrata paragonabile alla Grande Depressione cambierà

Dazddeepseeker 8 Febbraio 20258 Febbraio 2025

In evidenza La concorrenza con DeepSeek è positiva per gli USA Cathie Wood: Penso che dimostri che il costo dell'innovazione sta calando drasticamente e che questa tendenza è già iniziata. Ad esempio, prima di DeepSeek, il costo della formazione dell'intelligenza artificiale è sceso di 75% all'anno e il costo dell'inferenza è addirittura sceso di 85% a…

Senza categoria

Altman: ci sbagliavamo sull'IA open source! L'DeepSeek ha reso OpenAI meno vantaggioso, e il prossimo è il GPT-5

Dazddeepseeker 1 febbraio 20251 febbraio 2025

L'o3-mini è arrivato a notte fonda e OpenAI ha finalmente svelato il suo ultimo asso nella manica. Nel corso di una Q&A su Reddit AMA, Altman ha confessato di essersi schierato dalla parte sbagliata dell'IA open source. Ha detto che la strategia interna dell'open source viene presa in considerazione e che il modello continuerà a essere sviluppato, ma...

Ali Qwen2.5-Max supera DeepSeek-V3! Netizen: l'intelligenza artificiale cinese sta rapidamente colmando il divario

Quattro abilità individuali raggiungono la vetta

Codice/inferenza eccezionale, supporta gli artefatti

Il modello low cost di Google, la serie Gemini 2.0, è all'attacco: si intensifica la battaglia per la convenienza dei modelli di grandi dimensioni

La sfida dei quattro migliori modelli! Una recensione mostra la potenza del Deepseek R1

Che cosa è FlashMLA? Una guida completa al suo impatto sui kernel di decodifica AI

Ultime notizie! OpenAI ha rilasciato oggi due nuovi modelli di inferenza: o3-mini e o3-mini-high.

Cathie Wood: DeepSeek sta solo accelerando il processo di riduzione dei costi; la struttura di mercato estremamente concentrata paragonabile alla Grande Depressione cambierà

Altman: ci sbagliavamo sull'IA open source! L'DeepSeek ha reso OpenAI meno vantaggioso, e il prossimo è il GPT-5

Lascia un commento Annulla risposta