Google đã phát hành ba mô hình mới cùng một lúc: Gemini-2.0-Pro miễn phí, có điểm số vượt trội và xếp hạng đầu tiên, phù hợp để mã hóa và xử lý các lời nhắc phức tạp!

Câu chuyện của Đá quý N tôi 2.0 đang tăng tốc.

Phiên bản thử nghiệm Flash Thinking vào tháng 12 đã mang đến cho các nhà phát triển một mô hình hoạt động có độ trễ thấp và hiệu suất cao.

Đầu năm nay, phiên bản 2.0 Flash Thinking Experimental đã được cập nhật trong Google AI Studio để cải thiện hiệu suất hơn nữa bằng cách kết hợp tốc độ của Flash với khả năng suy luận nâng cao.

Tuần trước, phiên bản cập nhật 2.0 của Flash đã được ra mắt đầy đủ trên ứng dụng Gemini dành cho máy tính để bàn và thiết bị di động.

Hôm nay, ba thành viên mới đã được ra mắt cùng lúc: phiên bản thử nghiệm Gemini 2.0 Pro, cho đến nay hoạt động tốt nhất trong việc mã hóa và đưa ra lời nhắc phức tạp, phiên bản 2.0 Flash-Lite tiết kiệm chi phí và phiên bản 2.0 Flash Thinking nâng cao khả năng tư duy.

Gemini 2.0 Pro xếp hạng đầu tiên trong mọi hạng mục. Gemini-2.0-Flash xếp hạng trong top ba về mã hóa, toán học và câu đố. Flash-lite xếp hạng trong top mười trong mọi hạng mục.

Biểu đồ so sánh khả năng của ba mô hình:

Tất cả các mô hình đều hỗ trợ nhập và xuất văn bản đa phương thức.

Nhiều khả năng mô hình hơn đang trên đường đến. Biểu đồ sức mạnh mô hình trong lĩnh vực mã hóa

Bản đồ nhiệt tỷ lệ thắng

Google đối xử với người dùng miễn phí tốt hơn OpenAI đối xử với người dùng Plus. Truy cập miễn phí vào Gemini 2.0 Pro Thử nghiệm trong AI Studio:

Nhấp để chơi

Dịch vụ Deepseek luôn hiển thị lỗi đang chờ… Hãy nhớ rằng mô hình không suy luận đầu tiên cũng là Flash Thinking 2.0, được sử dụng trong Google aistudio.

Ngoài ra, còn có phiên bản web của Gemini:

Ngoài ra còn có một mô hình suy luận có kết nối (vậy tại sao lại phải tách nó ra…)

Google đã phát hành phiên bản thử nghiệm của Gemini 2.0 Pro và sự cải tiến trong các bài kiểm tra chuẩn chính thức khá đáng chú ý.

Nó có khả năng mã hóa mạnh mẽ nhất và khả năng xử lý các lời nhắc phức tạp, đồng thời có khả năng hiểu và lý luận về kiến thức thế giới tốt hơn bất kỳ mô hình nào từng được Google phát hành cho đến nay.

Nó có cửa sổ ngữ cảnh lớn nhất (200k và ngữ cảnh dài của tôi là một lợi thế tương đối lớn của mô hình Gemini), cho phép nó phân tích và hiểu toàn diện một lượng thông tin lớn, cũng như gọi các công cụ như tìm kiếm Google và thực thi mã.

Trong bài kiểm tra TOÁN, đạt 91,8%, tăng khoảng 5 phần trăm so với phiên bản 1.5. Khả năng suy luận GPQA đạt 64,7% và bài kiểm tra kiến thức thế giới SimpleQA thậm chí đạt 44,3%.

Đáng chú ý nhất là khả năng lập trình. Nó đạt 36.0% trong thử nghiệm LiveCodeBench và độ chính xác chuyển đổi Bird-SQL vượt quá 59.3%. Kết hợp với cửa sổ ngữ cảnh siêu lớn với 2 triệu mã thông báo, nó đủ để xử lý các tác vụ phân tích mã phức tạp nhất.

Bạn có thể thử nó bằng con trỏ.

Khả năng hiểu đa ngôn ngữ cũng rất ấn tượng, với điểm kiểm tra MMLU toàn cầu là 86,5%. Khả năng hiểu hình ảnh MMMU là 72,7% và khả năng phân tích video là 71,9%.

Gemini 2.0 Flash-Lite là một sự cân bằng thú vị.

Nó duy trì tốc độ và chi phí của 1.5 Flash, nhưng mang lại hiệu suất tốt hơn. Cửa sổ ngữ cảnh với 1 triệu mã thông báo cho phép nó xử lý nhiều thông tin hơn.

Điều thực tế nhất là tỷ lệ giá/hiệu suất: việc tạo chú thích cho 40.000 bức ảnh có chi phí thấp hơn $1. Điều này làm cho AI trở nên thực tế hơn.

Blogger Shrivastava đã đề cập: Mã hóa Gemini 2.0 Pro thật điên rồ!

Mẹo: sử dụng Three.js để tạo mô phỏng hệ mặt trời. Thêm thang thời gian, menu thả xuống tiêu điểm, hiển thị quỹ đạo và hiển thị nhãn. Tạo mọi thứ trong một tệp để tôi có thể dán vào trình chỉnh sửa trực tuyến và xem đầu ra.

Ngoài ra, một số người dùng còn đề cập rằng Gemini 2.0 Flash mang lại kết quả tốt hơn trong một trong những thử nghiệm nghịch lý của chính ông:

Cuối cùng, Google đề cập rằng tính bảo mật của Gemini 2.0, không chỉ là bản vá, là cốt lõi của thiết kế ngay từ đầu.

Hãy để mô hình học cách tự phê bình. Sử dụng học tăng cường để Gemini tự đánh giá câu trả lời của mình và cung cấp phản hồi chính xác hơn. Điều này giúp mô hình mạnh mẽ hơn khi xử lý các chủ đề nhạy cảm.

Kiểm tra nhóm đỏ tự động rất thú vị. Nó được thiết kế đặc biệt để ngăn chặn việc đưa vào các từ gợi ý gián tiếp, giống như trang bị cho AI một hệ thống miễn dịch để ngăn chặn ai đó ẩn các lệnh độc hại trong dữ liệu.

Chưa phân loại

Le Chat đứng đầu bảng xếp hạng, với khoản đầu tư lên tới hàng trăm tỷ đô la. Sau Hoa Kỳ và Trung Quốc, liệu đây có phải là cường quốc AI thứ ba không?

Quazddeepseeker Tháng 2 11, 2025Tháng 2 11, 2025

Vào ngày 9 tháng 2, Tổng thống Pháp Emmanuel Macron tuyên bố rằng Pháp sẽ đầu tư 109 tỷ euro (113 tỷ đô la Mỹ) vào lĩnh vực AI trong vài năm tới. Khoản đầu tư này sẽ được sử dụng để xây dựng một công viên AI tại Pháp, cải thiện cơ sở hạ tầng và đầu tư vào các công ty khởi nghiệp AI địa phương. Trong khi đó, Mistral, một công ty khởi nghiệp của Pháp,…

Chưa phân loại

DeepSeek TOP17 Lựa chọn thay thế tốt nhất: Phân tích toàn diện (2025)

Quadeepseeker Tháng 2 6, 2025Tháng 2 6, 2025

Giới thiệu Trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, DeepSeek đã nổi lên như một mô hình ngôn ngữ mạnh mẽ. Phân tích toàn diện này khám phá 17 giải pháp thay thế hàng đầu cho DeepSeek, xem xét các tính năng, khả năng và trường hợp sử dụng độc đáo của chúng. Nghiên cứu của chúng tôi tập trung vào cả nền tảng quốc tế và Trung Quốc cung cấp tích hợp DeepSeek hoặc các khả năng tương tự. Phân tích các giải pháp thay thế hàng đầu 1….

Chưa phân loại

cuộc đối thoại a16z với CEO 27 tuổi: AI Agent có tác dụng đòn bẩy rất lớn và giá cả dài hạn sẽ gắn liền với chi phí lao động

Quazddeepseeker Tháng 2 8, 2025Tháng 2 8, 2025

Điểm nổi bật AI Agent định hình lại trải nghiệm của khách hàng Jesse Zhang: Một Agent thực sự được xây dựng như thế nào? Quan điểm của chúng tôi là theo thời gian, nó sẽ ngày càng giống với một Agent dựa trên ngôn ngữ tự nhiên vì đó là cách các mô hình ngôn ngữ lớn (LLM) được đào tạo. Về lâu dài, nếu bạn có một agent siêu thông minh…

Chưa phân loại

DeepSeek đã phát hành mã nguồn, giải thích chi tiết về FlashMLA

Quazddeepseeker Tháng 2 24, 2025Tháng 2 24, 2025

Tuần trước, DeepSeek đã thông báo rằng họ sẽ mở mã nguồn năm dự án vào tuần tới: Cư dân mạng cho biết, "Lần này, OpenAI thực sự đã ở đây." Vừa rồi, dự án nguồn mở đầu tiên đã ra mắt, liên quan đến khả năng tăng tốc suy luận, FlashMLA: Địa chỉ dự án nguồn mở: DeepSeek FlashMLA Dự án này đã mở mã nguồn trong hai giờ và Github đã có hơn 2,7 nghìn sao: Dự án…

Chưa phân loại

Deepseek có thể đạt được điều gì? Ngay cả OpenAI cũng không làm được?

Quazddeepseeker Tháng 2 10, 2025Tháng 2 10, 2025

Giá trị thực sự của DeepSeek bị đánh giá thấp! DeepSeek-R1 chắc chắn đã mang đến một làn sóng nhiệt tình mới cho thị trường. Không chỉ các mục tiêu được gọi là người thụ hưởng có liên quan đang tăng mạnh, mà một số người thậm chí còn phát triển các khóa học và phần mềm liên quan đến DeepSeek để kiếm tiền từ nó. Chúng tôi tin rằng mặc dù những hiện tượng này có…

Chưa phân loại

So sánh toàn diện giữa o3-mini và DeepSeek R1 mới phát hành của OpenAI

Quazddeepseeker Tháng 2 1, 2025Tháng 2 1, 2025

OpenAI đã phát hành mô hình suy luận mới nhất của mình, o3-mini, được tối ưu hóa cho các lĩnh vực như khoa học, toán học và lập trình, cung cấp phản hồi nhanh hơn, độ chính xác cao hơn và chi phí thấp hơn. So với người tiền nhiệm o1-mini, o3-mini đã cải thiện đáng kể khả năng suy luận của mình, đặc biệt là trong việc giải quyết các vấn đề phức tạp. Những người kiểm tra thích câu trả lời của o3-mini theo 56% và tỷ lệ lỗi đã…

Google đã phát hành ba mô hình mới cùng lúc: Gemini-2.0-Pro miễn phí, có điểm số cao và xếp hạng đầu tiên, phù hợp để mã hóa và xử lý các lời nhắc phức tạp!

Le Chat đứng đầu bảng xếp hạng, với khoản đầu tư lên tới hàng trăm tỷ đô la. Sau Hoa Kỳ và Trung Quốc, liệu đây có phải là cường quốc AI thứ ba không?

DeepSeek TOP17 Lựa chọn thay thế tốt nhất: Phân tích toàn diện (2025)

cuộc đối thoại a16z với CEO 27 tuổi: AI Agent có tác dụng đòn bẩy rất lớn và giá cả dài hạn sẽ gắn liền với chi phí lao động

DeepSeek đã phát hành mã nguồn, giải thích chi tiết về FlashMLA

Deepseek có thể đạt được điều gì? Ngay cả OpenAI cũng không làm được?

So sánh toàn diện giữa o3-mini và DeepSeek R1 mới phát hành của OpenAI

Để lại một bình luận Hủy

Bài viết tương tự

Để lại một bình luận Hủy