Gemini 2.0 thống trị bảng xếp hạng, trong khi DeepSeek V3 đang phải chịu mức giá cắt cổ, và một nhà vô địch mới tiết kiệm chi phí đã ra đời!

Các Google Gemini 2.0 Gia đình cuối cùng đã hoàn thiện! Nó thống trị các bảng xếp hạng ngay khi được phát hành.

Giữa sự truy đuổi và phong tỏa của Tìm kiếm sâu, Qwen và o3, Google đã phát hành ba mô hình cùng một lúc vào sáng nay: Gemini 2.0 Pro, Gemini 2.0 Flash và Gemini 2.0 Flash-Lite.

Trong bảng xếp hạng LMSYS mẫu lớn, Gemini 2.0-Pro đã vươn lên dẫn đầu và tất cả các sản phẩm trong họ Gemini-2.0 đều lọt vào top 10.

Mục lục

Đầu tiên chúng ta hãy xem xét hiệu suất của mô hình

Các Mô hình Gemini 2.0 ra mắt lần này tất cả đều có điểm nổi bật riêng về mặt hiệu suất!

Gemini 2.0 Pro (Thử nghiệm)

Như là mẫu hàng đầu trong dòng Gemini, phiên bản Pro đại diện cho khả năng AI tiên tiến nhất của Google và vượt trội trong mã hóa và suy luận cụ thể:

Cửa sổ ngữ cảnh cực lớn: hỗ trợ xử lý ngữ cảnh lên đến 2 triệu token
Tích hợp công cụ mạnh mẽ: tích hợp sâu sắc tìm kiếm Google và thực thi mã
Khả dụng: đã có sẵn dưới dạng phiên bản thử nghiệm trên Google AI Studio, Vertex AI và nền tảng Gemini Advanced

Song Tử 2.0 Flash

được định vị như một “con ngựa thồ hiệu suất cao”. Nó được thiết kế tập trung vào việc cân bằng tốc độ và hiệu suất, và nhằm mục đích cung cấp hỗ trợ lý tưởng cho các tình huống ứng dụng yêu cầu phản hồi độ trễ thấp:

Hàng triệu cửa sổ ngữ cảnh: Hỗ trợ ngữ cảnh 1M token
Khả năng suy luận đa phương thức tuyệt vời: Tốt trong việc xử lý dữ liệu đa phương thức, hiện hỗ trợ đầu vào đa phương thức và đầu vào văn bản đơn phương thức
Mở rộng tính năng trong tương lai: Chức năng tạo hình ảnh và chuyển văn bản thành giọng nói sẽ sớm có sẵn
Khả dụng: Được phát hành chính thức trên nền tảng Vertex AI Studio và Google AI Studio và có thể truy cập thông qua Gemini API.

Gemini 2.0 Flash-Lite (Xem trước)

Là mô hình “tiết kiệm chi phí nhất”, Flash-Lite mang lại sự cân bằng tốt nhất giữa tốc độ, chi phí và hiệu suất.

Ưu điểm tiết kiệm chi phí: Trong khi vẫn duy trì tốc độ và chi phí như 1.5 Flash, nó hoạt động tốt hơn 1.5 Flash trong hầu hết các bài kiểm tra chuẩn.
Cửa sổ ngữ cảnh cấp độ triệu: Cũng hỗ trợ 1M token sức mạnh xử lý ngữ cảnh.

Theo bản so sánh đánh giá hiệu năng do Google công bố, phiên bản Gemini 2.0 Pro Experimental đạt điểm cao nhất ở hầu hết các bài kiểm tra chuẩn, hoạt động xuất sắc:

Nó thực hiện đặc biệt tốt trong các tác vụ tạo mã (như LiveCodeBench v5) và các bài toán phức tạp (như đại số, hình học và phép tính). Ngoài ra, còn có sự cải thiện đáng kể trong bài kiểm tra hiểu các tài liệu dài phức tạp.

Và giá cả

Google cũng là nhà sản xuất có lương tâm khi xét đến tính hiệu quả về mặt chi phí của API.

Một triệu token của Gemini 2.0 Flash có giá chưa đến một đô la… Nó hỗ trợ nhiều chế độ, tìm kiếm theo mạng và cửa sổ ngữ cảnh chưa từng có.

Ngược lại, Deepseek V3 hiện có giá một đô la cho một triệu token và suy luận R1 có giá bốn đô la.

PS: Nhưng tôi vẫn muốn cảm ơn DeepSeek đã hạ giá. Bất kỳ ai có thể hạ giá được đều là gia đình.

Cái này thực sự quá rẻ! So với hiệu năng, tôi nghĩ Gemini bị bỏ qua chính là giá cả!

Hiệu suất trường hợp

Vì nó được cho là tốt như Deepseek, chúng ta chắc chắn phải xem nó thực sự hoạt động như thế nào trong các trường hợp và xem nhiều cư dân mạng đã thử nghiệm nó như thế nào

Một trò chơi pinball dựa trên vật lý

Trước tiên, chúng ta hãy xem xét trường hợp phổ biến này, sử dụng công cụ vật lý để mô phỏng các hiệu ứng thực tế như va chạm, ma sát và trọng lực.

Gợi ý: Viết một chương trình Python hiển thị một quả bóng nảy bên trong một hình lục giác đang quay. Quả bóng phải chịu tác động của trọng lực và ma sát, và phải nảy thực tế ra khỏi các bức tường đang quay

Đây là cách Deepseek R1 và o3-min hoạt động:

Phiên bản được tạo bởi Gemini 2.0 Pro Experimental:

Hai mô hình còn lại không hoạt động tốt

Gấp đôi độ khó! Chia quả bóng thành 100 quả bóng!

Gợi ý: Viết một tập lệnh cho 100 quả bóng màu vàng sáng nảy bên trong một quả cầu, đảm bảo xử lý phát hiện va chạm chính xác. Làm cho quả cầu quay chậm. Đảm bảo các quả bóng nằm bên trong quả cầu. Triển khai trong p5.js

Làm tốt lắm! Quả cầu quay chậm rất mượt mà, mô phỏng các định luật vật lý rất tuyệt. 100 quả bóng cũng đang va chạm đều đặn và “làm nhiệm vụ” ~

Viết một tập lệnh p5.js để mô phỏng 25 hạt nảy xung quanh trong không gian chân không bên trong một vật chứa hình trụ. Sử dụng một màu khác nhau cho mỗi quả bóng và đảm bảo chúng để lại một vệt để thể hiện chuyển động của chúng. Thêm một vòng quay chậm của vật chứa để quan sát tốt hơn những gì đang diễn ra trong cảnh. Đảm bảo tạo các quy tắc phát hiện va chạm và vật lý phù hợp để đảm bảo các hạt vẫn nằm bên trong vật chứa. Thêm một vật chứa hình cầu bên ngoài. Thêm hiệu ứng phóng to và thu nhỏ chậm vào toàn bộ cảnh.

Một câu hỏi trắc nghiệm về quả dâu tây không thể bỏ qua

Và cư dân mạng thông minh (xảo quyệt) lại đưa ra bài kiểm tra dâu tây kinh điển một lần nữa:

Có bao nhiêu chữ r trong dâu tây

Và Gemini 2.0 Flash Thinking Experimental đã đưa ra câu trả lời đúng:

Ông chủ Google Jeff Dean đã đích thân kiểm tra kỹ năng lập trình của mình

Jeff Dean, nhà khoa học trưởng tại Google DeepMind và Google Research, cũng đã thử nghiệm các kỹ năng lập trình của một loạt Gemini 2.0 Pro:

Ông đã để mô hình hoàn thành trò chơi Boggle cổ điển và mã được tạo ra ngay lần đầu tiên hoàn thành việc tìm tất cả các từ hợp lệ trong “chữ hình vuông” trò chơi:

Hơn nữa, Jeff Dean cho biết mã này chỉ hoàn thành trong 18,9 giây, một tốc độ rất nhanh.

CEO của Google DeepMind rất tự tin vào bản cập nhật lớn này cho mô hình, ông cho biết bản phát hành này đặt nền tảng để Google đạt được mục tiêu phát triển tác nhân thông minh trong tương lai:

CEO của Google Sundar Pichai trước đây đã nói rõ rằng năm 2025 sẽ là giai đoạn quan trọng để Google đẩy nhanh quá trình phát triển trong lĩnh vực AI. Có vẻ như sau bản phát hành này, lộ trình của Google sẽ rõ ràng hơn!

So với các tuyến đường của những gã khổng lồ khác, tuyến đường AI của Google tập trung nhiều hơn vào tính thực tế và cung cấp trực tiếp nhiều tùy chọn phiên bản, giống như một hộp công cụ AI, nơi bạn có thể lựa chọn theo ý muốn, theo nhu cầu của bạn, linh hoạt và tiện lợivà có thể đáp ứng mọi nhu cầu.

Gemini 2.0 thống trị bảng xếp hạng, trong khi DeepSeek V3 có giá rất đắt và một nhà vô địch mới có giá thành hợp lý đã ra đời!