방금 국내 모델 한명 더 빅모델아레나에 추가됐어요

알리로부터, Qwen2.5-맥스, DeepSeek-V3를 제치고 총점 1332점으로 전체 순위 7위를 차지했습니다.

또한 Claude 3.5 Sonnet 및 Llama 3.1 405B와 같은 모델을 단번에 앞지르기도 했습니다.

특히, 프로그래밍과 수학에 능숙하다, Fullblood o1과 DeepSeek-R1과 함께 1위를 차지했습니다.

Chatbot Arena는 에서 출시한 대규모 모델 성능 테스트 플랫폼입니다. LMSYS 조직. 현재 190개 이상의 모델을 통합하고 있으며, 두 명씩 짝을 지어 모델을 사용자에게 제공하여 블라인드 테스트를 실시하고, 사용자는 실제 대화 경험에 따라 모델의 기능에 투표합니다.

이러한 이유로 Chatbot Arena LLM 리더보드는 세계 최고의 대형 모델을 위한 가장 권위 있고 중요한 경기장입니다.

웬 2.5-맥스 새로 오픈한 10위권에도 진입했다 웹데브 웹 애플리케이션 개발을 위한 목록입니다.

이에 대한 lmsys의 공식 의견은 다음과 같습니다. 중국 AI, 격차 빠르게 좁혀!

직접 사용해 본 네티즌들은 웬의 성능이 더 안정적이라고 말한다.

일부 사람들은 Qwen이 곧 실리콘 밸리의 모든 일반 모델을 대체할 것이라고 말하기도 합니다.

4가지 개별 능력이 최고 수준에 도달합니다.

전체 목록의 상위 3개 가운데 1위와 2위는 모두 Google Gemini 계열이 차지했고, GPT-4o와 DeepSeek-R1이 3위를 차지했습니다.

Qwen2.5-Max는 o1-preview와 함께 7위를 차지했으며, 전체 o1보다 약간 뒤처졌습니다.

다음은 각 부문에서 Qwen2.5-Max의 성과입니다.

더 논리적으로 수학과 코드 작업에서 Qwen2.5-Max의 결과는 o1-mini의 결과를 능가했으며, 완전히 충전된 o1과 DeepSeek-R1과 함께 1위를 차지했습니다.

그리고 수학 목록에서 1위를 차지한 모델 중에서 Qwen2.5-Max는 유일한 비추론 모델입니다.

구체적인 전투 기록을 자세히 살펴보면, Qwen2.5-Max가 순수 o1을 상대로 코드 어빌리티에서 69%의 승률을 기록한 것을 확인할 수 있습니다.

에서 복잡한 프롬프트 단어 task, Qwen2.5-Max와 o1-preview가 2위를 공동 차지하였고, 영어로만 한정한다면 o1-preview, DeepSeek-R1 등과 동등하게 1위를 차지할 수 있습니다.

또한 Qwen2.5-Max는 DeepSeek-R1과 함께 1위를 차지했습니다. 멀티 턴 대화; 3위에 올랐습니다 긴 글 (토큰 500개 이상), o1-preview를 능가합니다.

또한 알리는 기술 보고서에서 몇몇 고전적인 목록에서 Qwen2.5-Max의 성능도 보여주었습니다.

명령모델 비교에서 Qwen2.5-Max는 Arena-Hard(인간의 선호도와 유사), MMLU-Pro(대학 수준의 지식) 등의 벤치마크에서 GPT-4o 및 Claude 3.5-Sonnet과 동일하거나 더 높은 수준을 보입니다.

오픈소스 기반 모델 비교에서 Qwen2.5-Max는 전반적으로 DeepSeek-V3보다 성능이 우수했으며 Llama 3.1-405B보다 훨씬 앞서있었습니다.

기본 모델의 경우, Qwen2.5-Max도 대부분의 벤치마크 테스트에서 상당한 이점을 보여주었습니다(폐쇄형 소스 모델 기본 모델은 접근할 수 없으므로 오픈소스 모델만 비교할 수 있습니다).

뛰어난 코드/추론, Artifacts 지원

Qwen2.5-Max가 출시된 후, 많은 네티즌이 테스트에 참여했습니다.

코드와 추론 등의 분야에서 뛰어난 성과를 보이는 것으로 나타났습니다.

예를 들어 JavaScript로 체스 게임을 작성해 보죠.

덕분에 유물, 한 문장으로 개발된 작은 게임은 즉시 플레이할 수 있습니다:

생성된 코드는 읽고 사용하기가 더 쉽습니다.

Qwen2.5-Max는 복잡한 프롬프트를 추론할 때 빠르고 정확합니다.

귀하의 팀은 고객 요청을 처리하기 위해 3단계를 거칩니다.

데이터 수집(단계 A): 요청당 5분.

처리(단계 B): 요청당 10분.

검증(C단계): 요청당 8분.

현재 팀은 순차적으로 작업하고 있지만 병렬 워크플로를 고려하고 있습니다. 각 단계에 두 명을 할당하고 병렬 워크플로를 허용하면 시간당 출력이 20% 증가합니다. 그러나 병렬 워크플로를 추가하면 운영 오버헤드 측면에서 15%가 더 듭니다. 시간과 비용을 고려할 때 효율성을 최적화하기 위해 병렬 워크플로를 사용해야 할까요?

Qwen2.5-Max는 전체 추론을 30초 이내에 완료하며 전체 프로세스를 현재 워크플로 분석, 병렬 워크플로 분석, 비용 영향, 비용 효율성 상충, 결론의 5단계로 명확하게 구분합니다.

최종 결론은 빠르게 도출되었습니다. 병렬 워크플로를 사용해야 합니다.

역시 비추론 모델인 DeepSeek-V3에 비해 Qwen2.5-Max는 더 간결하고 빠른 대응을 제공합니다.

또는 ASCII 숫자로 구성된 회전 구를 생성하게 하세요. 시야각에 가장 가까운 숫자는 순수한 흰색이고, 가장 먼 숫자는 점차 회색으로 변하고 배경은 검은색입니다.

단어의 특정 글자 수를 세는 것은 더 쉽습니다.

직접 체험하고 싶으시다면 Qwen2.5-Max는 이미 Qwen Chat 플랫폼에 올라와 있으며 무료로 체험해 보실 수 있습니다.

기업 사용자는 Alibaba Cloud Bailian에서 Qwen2.5-Max 모델 API를 호출할 수 있습니다.

유사한 게시물

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다