Proprio ora, un altro modello nazionale è stato aggiunto all'elenco Big Model Arena

da Ali, Qwen2.5-Massimo, che ha superato DeepSeek-V3 e si è classificato settimo nella classifica generale con un punteggio totale di 1332.

Ha superato in un colpo solo anche modelli come Claude 3.5 Sonnet e Llama 3.1 405B.

In particolare, eccelle nella programmazione e nella matematica, ed è classificato al primo posto insieme a Fullblood o1 e DeepSeek-R1.

Chatbot Arena è una piattaforma di test delle prestazioni di grandi modelli lanciata da Organizzazione LMSYSAttualmente integra più di 190 modelli e utilizza modelli accoppiati in team da due da fornire agli utenti per test alla cieca, con gli utenti che votano sulle capacità dei modelli in base alle loro esperienze di conversazione nella vita reale.

Per questo motivo, la classifica LLM della Chatbot Arena è l'arena più autorevole e importante per le migliori modelle di grandi dimensioni del mondo.

Qwen 2.5-Max è entrato anche nella top ten della nuova apertura Sviluppo Web elenco per lo sviluppo di applicazioni web.

Il commento ufficiale di lmsys su questo è che L’intelligenza artificiale cinese sta rapidamente colmando il divario!

Gli internauti che l'hanno utilizzato personalmente affermano che le prestazioni di Qwen sono più stabili.

C'è addirittura chi sostiene che Qwen sostituirà presto tutti i modelli tradizionali nella Silicon Valley.

Quattro abilità individuali raggiungono la vetta

Il primo e il secondo posto nella top three della classifica generale sono stati conquistati dalla famiglia Google Gemini, con GPT-4o e DeepSeek-R1 a pari merito al terzo posto.

Qwen2.5-Max si è piazzato al settimo posto a pari merito con o1-preview, leggermente dietro a full o1.

Di seguito vengono presentate le prestazioni di Qwen2.5-Max in ogni singola categoria.

Nella maniera più logica matematica e codice Nei compiti, i risultati di Qwen2.5-Max hanno superato quelli di o1-mini, e si è classificato al primo posto a pari merito con o1 completamente carico e DeepSeek-R1.

E tra i modelli a pari merito al primo posto nella classifica matematica, Qwen2.5-Max è l'unico modello non ragionante.

Esaminando attentamente i dati specifici delle battaglie, si può anche notare che Qwen2.5-Max ha una percentuale di vittorie di 69% nell'abilità di codice contro il purosangue o1.

Nel parola di prompt complessa task, Qwen2.5-Max e o1-preview si classificano a pari merito al secondo posto, e se fosse limitato all'inglese, potrebbe classificarsi al primo posto, alla pari di o1-preview, DeepSeek-R1, ecc.

Inoltre, Qwen2.5-Max è a pari merito con DeepSeek-R1 per il primo posto in dialogo multi-turn; si colloca al terzo posto in testo lungo (non meno di 500 token), superando o1-preview.

Inoltre, Ali ha anche mostrato le prestazioni di Qwen2.5-Max in alcune liste classiche nel rapporto tecnico.

Nel confronto dei modelli di comando, Qwen2.5-Max è allo stesso livello o più alto di GPT-4o e Claude 3.5-Sonnet in benchmark come Arena-Hard (simile alle preferenze umane) e MMLU-Pro (conoscenza di livello universitario).

Nel confronto del modello base open source, Qwen2.5-Max ha superato anche DeepSeek-V3 in tutti gli aspetti ed è risultato nettamente superiore a Llama 3.1-405B.

Per quanto riguarda il modello base, anche Qwen2.5-Max ha mostrato un vantaggio significativo nella maggior parte dei test di benchmark (il modello base del modello closed source non è accessibile, quindi può essere confrontato solo il modello open source).

Codice/inferenza eccezionale, supporta gli artefatti

Dopo il lancio di Qwen2.5-Max, un gran numero di internauti è andato a provarlo.

Si è scoperto che eccelle in aree quali la codifica e l'inferenza.

Ad esempio, lasciamo che scriva una partita a scacchi in JavaScript.

Grazie a Artefatti, un piccolo gioco sviluppato in una singola frase può essere giocato immediatamente:

il codice generato è spesso più facile da leggere e da usare.

Qwen2.5-Max è veloce e preciso quando deduce richieste complesse:

Il tuo team deve seguire 3 passaggi per gestire le richieste dei clienti:

Raccolta dati (fase A): 5 minuti per richiesta.

Elaborazione (fase B): 10 minuti per richiesta.

Verifica (fase C): 8 minuti per richiesta.

Il team attualmente lavora in sequenza, ma stai considerando un flusso di lavoro parallelo. Se assegni due persone a ogni fase e consenti un flusso di lavoro parallelo, l'output orario aumenterà di 20%. Tuttavia, aggiungere un flusso di lavoro parallelo costerà 15% in più in termini di overhead operativo. Considerando il tempo e il costo, dovresti usare un flusso di lavoro parallelo per ottimizzare l'efficienza?

Qwen2.5-Max completa l'intera inferenza in meno di 30 secondi, suddividendo chiaramente il processo complessivo in cinque fasi: analisi del flusso di lavoro corrente, analisi dei flussi di lavoro paralleli, implicazioni sui costi, compromessi tra costi ed efficienza e conclusioni.

La conclusione finale è presto detta: è opportuno utilizzare flussi di lavoro paralleli.

Rispetto a DeepSeek-V3, che è anch'esso un modello non inferenziale, Qwen2.5-Max fornisce una risposta più concisa e rapida.

Oppure lascia che generi una sfera rotante composta da cifre ASCII. La cifra più vicina all'angolo di visione è bianco puro, mentre quella più lontana diventa gradualmente grigia, con uno sfondo nero.

Contare il numero di lettere specifiche in una parola è ancora più facile.

Se vuoi provarlo tu stesso, Qwen2.5-Max è già online sulla piattaforma Qwen Chat e può essere provato gratuitamente.

Gli utenti aziendali possono richiamare l'API del modello Qwen2.5-Max su Alibaba Cloud Bailian.

Messaggi simili

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *