Zojuist is er een ander binnenlands model toegevoegd aan de Big Model Arena-lijst

van Ali, Qwen2.5-Max, waarmee hij DeepSeek-V3 overtrof en op de zevende plaats eindigde in het algemeen klassement met een totaalscore van 1332.

Het overtrof in één klap modellen als de Claude 3.5 Sonnet en de Llama 3.1 405B.

In het bijzonder, het blinkt uit in programmeren en wiskundeen staat op de eerste plaats, samen met Fullblood o1 en DeepSeek-R1.

Chatbot Arena is een groot modelprestatietestplatform dat is gelanceerd door LMSYS-organisatieMomenteel integreert het meer dan 190 modellen en worden modellen in teams van twee aan gebruikers gegeven voor blinde tests, waarbij gebruikers stemmen op de mogelijkheden van de modellen op basis van hun echte gesprekservaringen.

Om deze reden is het Chatbot Arena LLM Leaderboard de meest gezaghebbende en belangrijkste arena voor de beste grote modellen ter wereld.

Qwen 2.5-Max brak ook door in de top tien van de onlangs geopende Webontwikkeling lijst voor webapplicatieontwikkeling.

Het officiële lmsys-commentaar hierover is dat Chinese AI dicht snel de kloof!

Internetgebruikers die het persoonlijk hebben gebruikt, zeggen dat de prestaties van Qwen stabieler zijn.

Sommige mensen beweren zelfs dat Qwen binnenkort alle gangbare modellen in Silicon Valley zal vervangen.

Vier individuele vaardigheden bereiken de top

De eerste en tweede plaats in de top drie van de algemene lijst werden ingenomen door de Google Gemini-familie, met de GPT-4o en DeepSeek-R1 op een gedeelde derde plaats.

Qwen2.5-Max eindigde op een gedeelde zevende plaats met o1-preview, iets achter de volledige o1.

Hierna volgen de prestaties van Qwen2.5-Max in elke afzonderlijke categorie.

In de meer logische wiskunde en code Bij de uitvoering van deze taken presteerde de Qwen2.5-Max beter dan de o1-mini en eindigde hij op een gedeelde eerste plaats, samen met de volledig opgeladen o1 en de DeepSeek-R1.

En van de modellen die op de eerste plaats staan op de wiskundelijst, is Qwen2.5-Max het enige niet-redenerende model.

Als je goed naar de specifieke gevechtsgegevens kijkt, zie je ook dat Qwen2.5-Max een winstpercentage van 69% heeft in codevaardigheid tegen de volbloed o1.

In de complex promptwoord task, Qwen2.5-Max en o1-preview eindigden gelijk op de tweede plaats, en als het beperkt is tot Engels, kan het op de eerste plaats komen, op gelijke hoogte met o1-preview, DeepSeek-R1, etc.

Bovendien deelt Qwen2.5-Max de eerste plaats met DeepSeek-R1 in dialoog met meerdere beurten; het staat op de derde plaats in lange tekst (niet minder dan 500 tokens), wat o1-preview overtreft.

Daarnaast liet Ali in het technisch rapport ook de prestaties van Qwen2.5-Max op een aantal klassieke lijsten zien.

Bij de vergelijking van commandomodellen ligt Qwen2.5-Max op hetzelfde niveau als of hoger dan GPT-4o en Claude 3.5-Sonnet in benchmarks zoals Arena-Hard (vergelijkbaar met menselijke voorkeuren) en MMLU-Pro (kennis op universitair niveau).

In de vergelijking van het open source basismodel presteerde de Qwen2.5-Max op alle vlakken beter dan de DeepSeek-V3 en lag hij ruim voor op de Llama 3.1-405B.

Wat het basismodel betreft, liet Qwen2.5-Max in de meeste benchmarktests ook een aanzienlijk voordeel zien (het gesloten-sourcemodel is niet toegankelijk, dus alleen het open-sourcemodel kan worden vergeleken).

Uitstekende code/inferentie, ondersteunt artefacten

Nadat Qwen2.5-Max werd gelanceerd, kwamen er veel internetgebruikers om het te testen.

Het is gebleken dat het uitstekend presteert op gebieden als coderen en inferentie.

Laat hem bijvoorbeeld een schaakspel schrijven in JavaScript.

Dankzij Artefacten, een klein spelletje dat in één zin is uitgewerkt en direct gespeeld kan worden:

De code die het genereert, is vaak gemakkelijker te lezen en te gebruiken.

Qwen2.5-Max is snel en nauwkeurig bij het afleiden van complexe prompts:

Uw team verwerkt klantverzoeken in 3 stappen:

Gegevensverzameling (fase A): 5 minuten per aanvraag.

Verwerking (fase B): 10 minuten per aanvraag.

Verificatie (fase C): 8 minuten per aanvraag.

Het team werkt momenteel sequentieel, maar u overweegt een parallelle workflow. Als u twee personen aan elke fase toewijst en een parallelle workflow toestaat, zal de output per uur met 20% toenemen. Het toevoegen van een parallelle workflow kost echter 15% meer aan operationele overhead. Gezien de tijd en kosten, moet u een parallelle workflow gebruiken om de efficiëntie te optimaliseren?

Qwen2.5-Max voltooit de volledige inferentie in minder dan 30 seconden en verdeelt het totale proces duidelijk in vijf stappen: analyse van de huidige workflow, analyse van parallelle workflows, kostenimplicaties, afwegingen tussen kosten en efficiëntie en conclusies.

De eindconclusie is snel getrokken: er moeten parallelle workflows worden gebruikt.

Vergeleken met DeepSeek-V3, dat ook een niet-inferentiemodel is, biedt Qwen2.5-Max een bondiger en snellere respons.

Of laat het een roterende bol genereren die is samengesteld uit ASCII-cijfers. Het cijfer dat het dichtst bij de kijkhoek ligt, is zuiver wit, terwijl het verste geleidelijk grijs wordt, met een zwarte achtergrond.

Het tellen van het aantal specifieke letters in een woord is nog eenvoudiger.

Als je het zelf wilt uitproberen, kun je Qwen2.5-Max nu al online uitproberen op het Qwen Chat-platform en kun je het gratis uitproberen.

Zakelijke gebruikers kunnen de Qwen2.5-Max model-API aanroepen op Alibaba Cloud Bailian.

Vergelijkbare berichten

Geef een reactie

Uw e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *