Câu chuyện của Đá quýNtôi 2.0 đang tăng tốc.

Phiên bản thử nghiệm Flash Thinking vào tháng 12 đã mang đến cho các nhà phát triển một mô hình hoạt động có độ trễ thấp và hiệu suất cao.

Đầu năm nay, phiên bản 2.0 Flash Thinking Experimental đã được cập nhật trong Google AI Studio để cải thiện hiệu suất hơn nữa bằng cách kết hợp tốc độ của Flash với khả năng suy luận nâng cao.

Tuần trước, phiên bản cập nhật 2.0 của Flash đã được ra mắt đầy đủ trên ứng dụng Gemini dành cho máy tính để bàn và thiết bị di động.

Hôm nay, ba thành viên mới đã được ra mắt cùng lúc: phiên bản thử nghiệm Gemini 2.0 Pro, cho đến nay hoạt động tốt nhất trong việc mã hóa và đưa ra lời nhắc phức tạp, phiên bản 2.0 Flash-Lite tiết kiệm chi phí và phiên bản 2.0 Flash Thinking nâng cao khả năng tư duy.

Gemini 2.0 Pro xếp hạng đầu tiên trong mọi hạng mục. Gemini-2.0-Flash xếp hạng trong top ba về mã hóa, toán học và câu đố. Flash-lite xếp hạng trong top mười trong mọi hạng mục.

Biểu đồ so sánh khả năng của ba mô hình:

Tất cả các mô hình đều hỗ trợ nhập và xuất văn bản đa phương thức.

Nhiều khả năng mô hình hơn đang trên đường đến. Biểu đồ sức mạnh mô hình trong lĩnh vực mã hóa

Bản đồ nhiệt tỷ lệ thắng

Google đối xử với người dùng miễn phí tốt hơn OpenAI đối xử với người dùng Plus. Truy cập miễn phí vào Gemini 2.0 Pro Thử nghiệm trong AI Studio:

Nhấp để chơi

Dịch vụ Deepseek luôn hiển thị lỗi đang chờ… Hãy nhớ rằng mô hình không suy luận đầu tiên cũng là Flash Thinking 2.0, được sử dụng trong Google aistudio.

Ngoài ra, còn có phiên bản web của Gemini:

Ngoài ra còn có một mô hình suy luận có kết nối (vậy tại sao lại phải tách nó ra…)

Google đã phát hành phiên bản thử nghiệm của Gemini 2.0 Pro và sự cải tiến trong các bài kiểm tra chuẩn chính thức khá đáng chú ý.

Nó có khả năng mã hóa mạnh mẽ nhất và khả năng xử lý các lời nhắc phức tạp, đồng thời có khả năng hiểu và lý luận về kiến thức thế giới tốt hơn bất kỳ mô hình nào từng được Google phát hành cho đến nay.

Nó có cửa sổ ngữ cảnh lớn nhất (200k và ngữ cảnh dài của tôi là một lợi thế tương đối lớn của mô hình Gemini), cho phép nó phân tích và hiểu toàn diện một lượng thông tin lớn, cũng như gọi các công cụ như tìm kiếm Google và thực thi mã.

Trong bài kiểm tra TOÁN, đạt 91,8%, tăng khoảng 5 phần trăm so với phiên bản 1.5. Khả năng suy luận GPQA đạt 64,7% và bài kiểm tra kiến thức thế giới SimpleQA thậm chí đạt 44,3%.

Đáng chú ý nhất là khả năng lập trình. Nó đạt 36.0% trong thử nghiệm LiveCodeBench và độ chính xác chuyển đổi Bird-SQL vượt quá 59.3%. Kết hợp với cửa sổ ngữ cảnh siêu lớn với 2 triệu mã thông báo, nó đủ để xử lý các tác vụ phân tích mã phức tạp nhất.

Bạn có thể thử nó bằng con trỏ.

Khả năng hiểu đa ngôn ngữ cũng rất ấn tượng, với điểm kiểm tra MMLU toàn cầu là 86,5%. Khả năng hiểu hình ảnh MMMU là 72,7% và khả năng phân tích video là 71,9%.

Gemini 2.0 Flash-Lite là một sự cân bằng thú vị.

Nó duy trì tốc độ và chi phí của 1.5 Flash, nhưng mang lại hiệu suất tốt hơn. Cửa sổ ngữ cảnh với 1 triệu mã thông báo cho phép nó xử lý nhiều thông tin hơn.

Điều thực tế nhất là tỷ lệ giá/hiệu suất: việc tạo chú thích cho 40.000 bức ảnh có chi phí thấp hơn $1. Điều này làm cho AI trở nên thực tế hơn.

Blogger Shrivastava đã đề cập: Mã hóa Gemini 2.0 Pro thật điên rồ!

Mẹo: sử dụng Three.js để tạo mô phỏng hệ mặt trời. Thêm thang thời gian, menu thả xuống tiêu điểm, hiển thị quỹ đạo và hiển thị nhãn. Tạo mọi thứ trong một tệp để tôi có thể dán vào trình chỉnh sửa trực tuyến và xem đầu ra.

Ngoài ra, một số người dùng còn đề cập rằng Gemini 2.0 Flash mang lại kết quả tốt hơn trong một trong những thử nghiệm nghịch lý của chính ông:

Cuối cùng, Google đề cập rằng tính bảo mật của Gemini 2.0, không chỉ là bản vá, là cốt lõi của thiết kế ngay từ đầu.

Hãy để mô hình học cách tự phê bình. Sử dụng học tăng cường để Gemini tự đánh giá câu trả lời của mình và cung cấp phản hồi chính xác hơn. Điều này giúp mô hình mạnh mẽ hơn khi xử lý các chủ đề nhạy cảm.

Kiểm tra nhóm đỏ tự động rất thú vị. Nó được thiết kế đặc biệt để ngăn chặn việc đưa vào các từ gợi ý gián tiếp, giống như trang bị cho AI một hệ thống miễn dịch để ngăn chặn ai đó ẩn các lệnh độc hại trong dữ liệu.

Bài viết tương tự

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *