
12月份的Flash Thinking Experimental版本為開發者帶來了低延遲、高效能的工作模型。
今年早些時候,2.0 Flash Thinking Experimental 在 Google AI Studio 中進行了更新,透過結合 Flash 的速度和增強的推理能力,進一步提高效能。
上週,更新後的 2.0 版 Flash 在 Gemini 桌面和行動應用程式上全面推出。
今天,三位新成員同時亮相:迄今為止在編碼和複雜提示方面表現最優異的實驗版本Gemini 2.0 Pro、高性價比的2.0 Flash-Lite、以及思維增強版2.0 Flash Thinking。
Gemini 2.0 Pro 在所有組別中均排名第一。 Gemini-2.0-Flash 在編碼、數學和謎題方面排名前三。 Flash-lite 在各個類別中都排名前十名。


三種模型能力比較圖:

所有模型都支援多模式輸入和輸出文字。
更多模式能力正在開發中。編碼領域的模型強度圖表

勝率熱圖

Google 對待免費用戶比 OpenAI 對待 Plus 用戶更好。在 AI Studio 免費使用 Gemini 2.0 Pro Experimental:

Deepseek服務總是顯示錯誤等待…記得第一個無推理模型也是2.0 Flash Thinking,它在Google aistudio中使用。

此外,還有 雙子座網頁版:
還有一個連通推理模型(那為什麼要將它分開呢…)

谷歌發表了Gemini 2.0 Pro實驗版本,官方基準測試中的提升頗為搶眼。

它具有最強大的編碼能力和處理複雜提示的能力,並且比谷歌迄今為止發布的任何模型都具有更好的理解和推理世界知識的能力。
它有最大的上下文視窗(200k,我的長上下文是Gemini模型比較大的優勢),這使得它能夠全面的分析理解大量的信息,並且能夠調用諸如穀歌搜索、代碼執行等工具。
在MATH測驗中取得了91.8%的成績,比1.5版本提升了約5個百分點。 GPQA推理能力達到了64.7%,而SimpleQA世界知識測驗甚至達到了44.3%。
最引人注目的是程式設計能力。在LiveCodeBench測驗中取得了36.0%的成績,Bird-SQL轉換準確率超過了59.3%。再加上200萬個token的超大上下文窗口,足以應付最複雜的程式碼分析任務。

您可以在遊標中嘗試一下。
多語言理解能力也令人印象深刻,全球MMLU測驗成績為86.5%。影像理解MMMU為72.7%,視訊分析能力為71.9%。
Gemini 2.0 Flash-Lite 是一種有趣的平衡。
它保持了1.5 Flash的速度和成本,但帶來了更好的性能。具有 100 萬個標記的上下文視窗使其能夠處理更多資訊。
最實用的是它的性價比:40,000張照片的標題產生成本還不到$1。這使得AI更加接地氣。

部落客 Shrivastava 提到:Gemini 2.0 Pro 程式設計太瘋狂了!
提示:使用 Three.js 建立太陽系模擬。新增時間刻度、焦點下拉式選單、顯示軌道和顯示標籤。在一個文件中創建所有內容,以便我可以將其貼到線上編輯器中並查看輸出。

此外,有用戶提到,Gemini 2.0 Flash 在自己的一個悖論測試中取得了更好的效果:

最後Google提到,Gemini 2.0的安全性,而不僅僅是補丁,從一開始就是設計的核心。
讓榜樣學會自我批判。使用強化學習讓 Gemini 評估自己的答案並提供更準確的回饋。這使得它在處理敏感話題時更加強大。
自動化的紅隊測試很有趣。它是專門為了防止間接提示詞的注入而設計的,這就像是給AI配備了免疫系統,以防止有人在數據中隱藏惡意命令。