Ali Qwen2.5-Max haalt DeepSeek-V3 in! Netizen: Chinese AI dicht snel de kloof

Zojuist is er een ander binnenlands model toegevoegd aan de Big Model Arena-lijst

van Ali, Qwen2.5-Max, waarmee hij DeepSeek-V3 overtrof en op de zevende plaats eindigde in het algemeen klassement met een totaalscore van 1332.

Het overtrof in één klap modellen als de Claude 3.5 Sonnet en de Llama 3.1 405B.

In het bijzonder, het blinkt uit in programmeren en wiskundeen staat op de eerste plaats, samen met Fullblood o1 en DeepSeek-R1.

Chatbot Arena is een groot modelprestatietestplatform dat is gelanceerd door LMSYS-organisatieMomenteel integreert het meer dan 190 modellen en worden modellen in teams van twee aan gebruikers gegeven voor blinde tests, waarbij gebruikers stemmen op de mogelijkheden van de modellen op basis van hun echte gesprekservaringen.

Om deze reden is het Chatbot Arena LLM Leaderboard de meest gezaghebbende en belangrijkste arena voor de beste grote modellen ter wereld.

Qwen 2.5-Max brak ook door in de top tien van de onlangs geopende Webontwikkeling lijst voor webapplicatieontwikkeling.

Het officiële lmsys-commentaar hierover is dat Chinese AI dicht snel de kloof!

Internetgebruikers die het persoonlijk hebben gebruikt, zeggen dat de prestaties van Qwen stabieler zijn.

Sommige mensen beweren zelfs dat Qwen binnenkort alle gangbare modellen in Silicon Valley zal vervangen.

Inhoudsopgave

Vier individuele vaardigheden bereiken de top

De eerste en tweede plaats in de top drie van de algemene lijst werden ingenomen door de Google Gemini-familie, met de GPT-4o en DeepSeek-R1 op een gedeelde derde plaats.

Qwen2.5-Max eindigde op een gedeelde zevende plaats met o1-preview, iets achter de volledige o1.

Hierna volgen de prestaties van Qwen2.5-Max in elke afzonderlijke categorie.

In de meer logische wiskunde en code Bij de uitvoering van deze taken presteerde de Qwen2.5-Max beter dan de o1-mini en eindigde hij op een gedeelde eerste plaats, samen met de volledig opgeladen o1 en de DeepSeek-R1.

En van de modellen die op de eerste plaats staan op de wiskundelijst, is Qwen2.5-Max het enige niet-redenerende model.

Als je goed naar de specifieke gevechtsgegevens kijkt, zie je ook dat Qwen2.5-Max een winstpercentage van 69% heeft in codevaardigheid tegen de volbloed o1.

In de complex promptwoord task, Qwen2.5-Max en o1-preview eindigden gelijk op de tweede plaats, en als het beperkt is tot Engels, kan het op de eerste plaats komen, op gelijke hoogte met o1-preview, DeepSeek-R1, etc.

Bovendien deelt Qwen2.5-Max de eerste plaats met DeepSeek-R1 in dialoog met meerdere beurten; het staat op de derde plaats in lange tekst (niet minder dan 500 tokens), wat o1-preview overtreft.

Daarnaast liet Ali in het technisch rapport ook de prestaties van Qwen2.5-Max op een aantal klassieke lijsten zien.

Bij de vergelijking van commandomodellen ligt Qwen2.5-Max op hetzelfde niveau als of hoger dan GPT-4o en Claude 3.5-Sonnet in benchmarks zoals Arena-Hard (vergelijkbaar met menselijke voorkeuren) en MMLU-Pro (kennis op universitair niveau).

In de vergelijking van het open source basismodel presteerde de Qwen2.5-Max op alle vlakken beter dan de DeepSeek-V3 en lag hij ruim voor op de Llama 3.1-405B.

Wat het basismodel betreft, liet Qwen2.5-Max in de meeste benchmarktests ook een aanzienlijk voordeel zien (het gesloten-sourcemodel is niet toegankelijk, dus alleen het open-sourcemodel kan worden vergeleken).

Uitstekende code/inferentie, ondersteunt artefacten

Nadat Qwen2.5-Max werd gelanceerd, kwamen er veel internetgebruikers om het te testen.

Het is gebleken dat het uitstekend presteert op gebieden als coderen en inferentie.

Laat hem bijvoorbeeld een schaakspel schrijven in JavaScript.

Dankzij Artefacten, een klein spelletje dat in één zin is uitgewerkt en direct gespeeld kan worden:

De code die het genereert, is vaak gemakkelijker te lezen en te gebruiken.

Qwen2.5-Max is snel en nauwkeurig bij het afleiden van complexe prompts:

Uw team verwerkt klantverzoeken in 3 stappen:

Gegevensverzameling (fase A): 5 minuten per aanvraag.

Verwerking (fase B): 10 minuten per aanvraag.

Verificatie (fase C): 8 minuten per aanvraag.

Het team werkt momenteel sequentieel, maar u overweegt een parallelle workflow. Als u twee personen aan elke fase toewijst en een parallelle workflow toestaat, zal de output per uur met 20% toenemen. Het toevoegen van een parallelle workflow kost echter 15% meer aan operationele overhead. Gezien de tijd en kosten, moet u een parallelle workflow gebruiken om de efficiëntie te optimaliseren?

Qwen2.5-Max voltooit de volledige inferentie in minder dan 30 seconden en verdeelt het totale proces duidelijk in vijf stappen: analyse van de huidige workflow, analyse van parallelle workflows, kostenimplicaties, afwegingen tussen kosten en efficiëntie en conclusies.

De eindconclusie is snel getrokken: er moeten parallelle workflows worden gebruikt.

Vergeleken met DeepSeek-V3, dat ook een niet-inferentiemodel is, biedt Qwen2.5-Max een bondiger en snellere respons.

Of laat het een roterende bol genereren die is samengesteld uit ASCII-cijfers. Het cijfer dat het dichtst bij de kijkhoek ligt, is zuiver wit, terwijl het verste geleidelijk grijs wordt, met een zwarte achtergrond.

Het tellen van het aantal specifieke letters in een woord is nog eenvoudiger.

Als je het zelf wilt uitproberen, kun je Qwen2.5-Max nu al online uitproberen op het Qwen Chat-platform en kun je het gratis uitproberen.

Zakelijke gebruikers kunnen de Qwen2.5-Max model-API aanroepen op Alibaba Cloud Bailian.

Vergelijkbare berichten

Uncategorized

Cathie Wood: DeepSeek versnelt alleen het proces van kostenreductie; de extreem geconcentreerde marktstructuur vergelijkbaar met de Grote Depressie zal veranderen

Doorzddeepseeker 8 februari 20258 februari 2025

Hoogtepunten Concurrentie met DeepSeek is goed voor de VS Cathie Wood: Ik denk dat het laat zien dat de kosten van innovatie dramatisch dalen en dat deze trend al is begonnen. Bijvoorbeeld, vóór DeepSeek daalden de kosten van het trainen van kunstmatige intelligentie met 75% per jaar en de kosten van inferentie daalden zelfs met 85% tot…

Uncategorized

Een uitgebreide vergelijking van OpenAI's onlangs uitgebrachte o3-mini en DeepSeek R1

Doorzddeepseeker 1 februari 20251 februari 2025

OpenAI heeft zijn nieuwste inferentiemodel, o3-mini, uitgebracht. Dit model is geoptimaliseerd voor vakgebieden als wetenschap, wiskunde en programmeren en biedt een snellere respons, hogere nauwkeurigheid en lagere kosten. Vergeleken met zijn voorganger o1-mini heeft o3-mini zijn inferentiemogelijkheden aanzienlijk verbeterd, vooral bij het oplossen van complexe problemen. Testers geven de voorkeur aan de antwoorden van o3-mini met 56%, en de foutmarge is...

Uncategorized

Wat kan Deepseek bereiken? Zelfs OpenAI kan het niet?

Doorzddeepseeker 10 februari 202510 februari 2025

De werkelijke waarde van DeepSeek wordt onderschat! DeepSeek-R1 heeft ongetwijfeld een nieuwe golf van enthousiasme op de markt gebracht. Niet alleen stijgen de relevante zogenaamde begunstigdendoelen sterk, maar sommige mensen hebben zelfs DeepSeek-gerelateerde cursussen en software ontwikkeld in een poging er geld mee te verdienen. Wij geloven dat hoewel deze fenomenen een…

Uncategorized

OpenAI o3-mini vs. DeepSeek-R1: Wie is de koning van de nieuwe generatie AI-modellen?

Doorzddeepseeker 1 februari 20251 februari 2025

o3-mini is er, met het momentum van een uitdager Op 31 januari heeft OpenAI het gloednieuwe grote model o3-mini vrijgegeven en een aantal functies ervan gratis beschikbaar gesteld aan alle ChatGPT-gebruikers. Hoewel er een limiet is op het aantal query's, kunnen gebruikers OpenAI's nieuwste commerciële model zo snel mogelijk ervaren....

Uncategorized

Brekend nieuws! OpenAI heeft vandaag 2 nieuwe inferentiemodellen uitgebracht: o3-mini en o3-mini-high.

Doorzddeepseeker 1 februari 20251 februari 2025

o3-mini en o3-mini (high) worden vandaag uitgebracht. Gewone gebruikers krijgen ook o3-mini en plus-gebruikers kunnen o3-mini (hoog) gebruiken. o3-mini (hoog) is ongeveer 200 punten hoger dan o1 op Codeforce, sneller dan o1 en presteert beter op het gebied van codering en wiskunde, maar de kosten liggen nog steeds op het niveau van o1-mini....

Uncategorized

DeepSeek heeft het gedaan! OpenAI geeft closed source fout toe, voorsprong wordt kleiner

Doorzddeepseeker 2 februari 20252 februari 2025

Nadat OpenAI het o3-mini model had uitgebracht, hielden de CEO Sam Altman, Chief Research Officer Mark Chen, Chief Product Officer Kevin Weil; Vice President of Engineering Srinivas Narayanan, Head of API Research Michelle Pokrass, en Head of Research Hongyu Ren, een online technisch vraaggesprek op reddit, een van 's werelds grootste uitgebreide forums. De belangrijkste onderwerpen...

Vier individuele vaardigheden bereiken de top

Uitstekende code/inferentie, ondersteunt artefacten

Vergelijkbare berichten

Geef een reactie Reactie annuleren