Google一次發布三個新模型：Gemini-2.0-Pro免費，成績優異排名第一，適合編碼和處理複雜的提示！深度探索 R1

的故事雙子座 n 我 2.0 正在加速。

12月份的Flash Thinking Experimental版本為開發者帶來了低延遲、高效能的工作模型。

今年早些時候，2.0 Flash Thinking Experimental 在 Google AI Studio 中進行了更新，透過結合 Flash 的速度和增強的推理能力，進一步提高效能。

上週，更新後的 2.0 版 Flash 在 Gemini 桌面和行動應用程式上全面推出。

今天，三位新成員同時亮相：迄今為止在編碼和複雜提示方面表現最優異的實驗版本Gemini 2.0 Pro、高性價比的2.0 Flash-Lite、以及思維增強版2.0 Flash Thinking。

Gemini 2.0 Pro 在所有組別中均排名第一。 Gemini-2.0-Flash 在編碼、數學和謎題方面排名前三。 Flash-lite 在各個類別中都排名前十名。

三種模型能力比較圖：

所有模型都支援多模式輸入和輸出文字。

更多模式能力正在開發中。編碼領域的模型強度圖表

勝率熱圖

Google 對待免費用戶比 OpenAI 對待 Plus 用戶更好。在 AI Studio 免費使用 Gemini 2.0 Pro Experimental：

點擊播放

Deepseek服務總是顯示錯誤等待…記得第一個無推理模型也是2.0 Flash Thinking，它在Google aistudio中使用。

此外，還有雙子座網頁版:

還有一個連通推理模型（那為什麼要將它分開呢…）

谷歌發表了Gemini 2.0 Pro實驗版本，官方基準測試中的提升頗為搶眼。

它具有最強大的編碼能力和處理複雜提示的能力，並且比谷歌迄今為止發布的任何模型都具有更好的理解和推理世界知識的能力。

它有最大的上下文視窗（200k，我的長上下文是Gemini模型比較大的優勢），這使得它能夠全面的分析理解大量的信息，並且能夠調用諸如穀歌搜索、代碼執行等工具。

在MATH測驗中取得了91.8%的成績，比1.5版本提升了約5個百分點。 GPQA推理能力達到了64.7%，而SimpleQA世界知識測驗甚至達到了44.3%。

最引人注目的是程式設計能力。在LiveCodeBench測驗中取得了36.0%的成績，Bird-SQL轉換準確率超過了59.3%。再加上200萬個token的超大上下文窗口，足以應付最複雜的程式碼分析任務。

您可以在遊標中嘗試一下。

多語言理解能力也令人印象深刻，全球MMLU測驗成績為86.5%。影像理解MMMU為72.7%，視訊分析能力為71.9%。

Gemini 2.0 Flash-Lite 是一種有趣的平衡。

它保持了1.5 Flash的速度和成本，但帶來了更好的性能。具有 100 萬個標記的上下文視窗使其能夠處理更多資訊。

最實用的是它的性價比：40,000張照片的標題產生成本還不到$1。這使得AI更加接地氣。

部落客 Shrivastava 提到：Gemini 2.0 Pro 程式設計太瘋狂了！

提示：使用 Three.js 建立太陽系模擬。新增時間刻度、焦點下拉式選單、顯示軌道和顯示標籤。在一個文件中創建所有內容，以便我可以將其貼到線上編輯器中並查看輸出。

此外，有用戶提到，Gemini 2.0 Flash 在自己的一個悖論測試中取得了更好的效果：

最後Google提到，Gemini 2.0的安全性，而不僅僅是補丁，從一開始就是設計的核心。

讓榜樣學會自我批判。使用強化學習讓 Gemini 評估自己的答案並提供更準確的回饋。這使得它在處理敏感話題時更加強大。

自動化的紅隊測試很有趣。它是專門為了防止間接提示詞的注入而設計的，這就像是給AI配備了免疫系統，以防止有人在數據中隱藏惡意命令。

未分類

OpenAI 新發布的 o3-mini 與 DeepSeek R1 的全面比較

經過雙ddeepseeker 2025年2月1日2025年2月1日

OpenAI發布了最新推理模型o3-mini，該模型針對科學、數學和程式設計等領域進行了最佳化，反應更快、準確率更高、成本更低。與前代o1-mini相比，o3-mini的推理能力有顯著提升，特別是在解決複雜問題方面。測試人員更喜歡 o3-mini 的答案 56%，並且錯誤率已經…

未分類

DeepSeek R1在創意寫作測驗中獲得了第一名，而o3 mini甚至比o1 mini還差！

經過雙ddeepseeker 2025年2月3日2025年2月3日

DeepSeek R1在創意短篇小說寫作基準測試中奪冠，成功超越上屆霸主Claude 3.5 Sonnet！基準測試研究員 Lech Mazur 設計的基準測試不是一般的寫作比賽。每個 AI 模型都需要完成 500 個短篇故事，並且每個故事都必須巧妙地融入…

未分類

Cathie Wood：DeepSeek只是加速了降低成本的進程；堪比大蕭條時期的極度集中的市場結構將會改變

經過雙ddeepseeker 2025年2月8日2025年2月8日

亮點與 DeepSeek 的競爭對美國有利 Cathie Wood：我認為這表明創新成本正在大幅下降，而且這種趨勢已經開始。例如，在DeepSeek之前，訓練人工智慧的成本每年下降了75%，推理的成本甚至下降了85%至......

未分類

Google低價機型Gemini 2.0系列來襲：大機型性價比之爭愈演愈烈

經過雙ddeepseeker 2025年2月8日2025年2月8日

使用大型AI模型的成本過高，是許多AI應用尚未實現和推廣的一個重要原因。選擇極限效能意味著巨大的算力成本，這導致高昂的使用成本是一般使用者無法接受的。大型AI模型的競爭就像一場沒有硝煙的戰爭。後…

未分類

a16z對話27歲CEO：AI Agent槓桿效應巨大，長期定價將與人力成本掛鉤

經過雙ddeepseeker 2025年2月8日2025年2月8日

亮點 AI Agent 重塑客戶體驗 Jesse Zhang：Agent 究竟是如何建構的？我們認為，隨著時間的推移，它將變得越來越像一個基於自然語言的代理，因為這就是大型語言模型 (LLM) 的訓練方式。從長遠來看，如果你有一個超級智慧代理...

未分類

什麼是 FlashMLA？對 AI 解碼內核影響的綜合指南

經過deepseeker 2025年2月24日2025年2月24日

FlashMLA 迅速引起了人工智慧領域的關注，特別是在大型語言模型（LLM）領域。這款由 DeepSeek 開發的創新工具是專為 Hopper GPU（常用於 AI 運算的高效能晶片）設計的最佳化解碼核心。 FlashMLA 專注於高效處理可變長度序列，使其特別適合…

類似文章

發佈留言 取消回覆

發佈留言取消回覆