OpenAI đã phát hành mô hình suy luận mới nhất của mình, o3-mini, được tối ưu hóa cho các lĩnh vực như khoa học, toán học và lập trình, cung cấp phản hồi nhanh hơn, độ chính xác cao hơn và chi phí thấp hơn.
So với phiên bản tiền nhiệm o1-mini, o3-mini đã cải thiện đáng kể khả năng suy luận của mình, đặc biệt là trong việc giải quyết các vấn đề phức tạp. Người kiểm tra thích câu trả lời của o3-mini là 56% và tỷ lệ lỗi đã giảm 39%. Từ hôm nay, ChatGPT Plus, Nhóm Và Chuyên nghiệp người dùng có thể sử dụng o3-mini và người dùng miễn phí cũng có thể trải nghiệm một số tính năng của nó.

So sánh với mô hình suy luận DeepSeek-R1, tốt hơn bao nhiêu là OpenAI o3-mini hơn R1?
Bài viết này trước tiên sẽ cung cấp tổng quan về các điểm nổi bật của o3-mini, sau đó chúng tôi sẽ trích xuất dữ liệu từ cả hai phía trên mỗi điểm chuẩn và tạo biểu đồ để so sánh trực quan. Ngoài ra, chúng tôi cũng sẽ so sánh giá của o3-mini.
Điểm nổi bật cốt lõi
1.Tối ưu hóa STEM: vượt trội trong các lĩnh vực toán học, lập trình, khoa học, v.v., đặc biệt vượt trội hơn o1-mini ở chế độ nỗ lực suy luận cao.
2.Chức năng của nhà phát triển: hỗ trợ các chức năng như gọi hàm, đầu ra có cấu trúc và tin nhắn cho nhà phát triển để đáp ứng nhu cầu của môi trường sản xuất.
3.Phản ứng nhanh: 24% nhanh hơn o1-mini, với thời gian phản hồi là 7,7 giây cho mỗi yêu cầu.
4.Cải thiện bảo mật: đảm bảo đầu ra an toàn và đáng tin cậy thông qua công nghệ căn chỉnh sâu.
5.Tiết kiệm chi phí: khả năng suy luận và tối ưu hóa chi phí song hành với nhau, giúp giảm đáng kể ngưỡng sử dụng AI.
So sánh
AI mở Để làm nổi bật đẳng cấp của nó, blog chính thức chỉ so sánh nó với các mô hình của riêng nó. Do đó, bài viết này là một bảng được trích xuất từ bài báo DeepSeek R1 và dữ liệu từ blog chính thức của OpenAI.
OpenAI chính thức so sánh o3-mini trong danh sách phiên bản, chia thành ba phiên bản: thấp, trung bình và cao, biểu thị sức mạnh suy luận. Vì DeepSeek sử dụng Math-500 và OpenAI sử dụng tập dữ liệu Math, nên phép so sánh này đã bị xóa ở đây.

Biểu đồ trực quan hơn và Codeforces đã bị xóa vì các giá trị quá lớn để hiển thị trực quan. Tuy nhiên, so sánh trên Codeforces cho thấy sức mạnh suy luận cao của o3-mini không phải là một lợi thế lớn.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-bench-Đã xác minh
Từ biểu đồ, có tổng cộng 4 phép so sánh và O3-mini (cao) thường dẫn đầu, nhưng khoảng cách dẫn trước rất nhỏ.
Giá
người mẫu | Giá đầu vào | Bộ nhớ đệm hit | Giá đầu ra |
o3-mini | $1.10 | $0.55 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
Tìm kiếm sâu R1 | $0.55 | $0.14 | $2.19 |
Bản tóm tắt
Khi DeepSeek R1 gây ra sự hoảng loạn cho DeepSeek tại Hoa Kỳ, công ty đầu tiên cảm thấy bị đe dọa là OpenAI, điều này đặc biệt rõ ràng ở giá của mẫu o3-mini mới của công ty.
Khi Openai o1 lần đầu tiên được phát hành, mức giá cao của nó đã gây áp lực cho nhiều nhà phát triển và người dùng. Sự xuất hiện của DeepSeek R1 đã mang đến cho mọi người nhiều sự lựa chọn hơn.Từ mức chênh lệch giá gấp 30 lần giữa o1 và R1 đến mức giá cuối cùng của o3-mini gấp đôi giá của DeepSeek R1,
hiển thị tác động của DeepSeek R1 lên openai.Tuy nhiên, người dùng ChatGPT miễn phí chỉ có thể trải nghiệm o3-mini ở mức độ hạn chế, trong khi Deep Thinking của DeepSeek hiện đã có sẵn cho tất cả người dùng.Tôi cũng mong muốn openai mang đến nhiều mô hình ai hàng đầu hơn đồng thời giảm chi phí sử dụng cho người dùng.
Theo góc nhìn của một blogger trải nghiệm cá nhân khi sử dụng R1, tôi muốn nói rằng Deep Thinking của R1 luôn mở mang đầu óc của tôi. Tôi khuyên mọi người nên sử dụng nó nhiều hơn để suy nghĩ về các vấn đề~