Gemini 2.0 mendominasi carta, manakala DeepSeek V3 menangis dalam harganya, dan juara kos efektif baharu dilahirkan!

The Google Gemini 2.0 keluarga akhirnya lengkap! Ia mendominasi carta sebaik sahaja ia dikeluarkan.

Di tengah-tengah pengejaran dan sekatan Deepseek, Qwen dan o3, Google mengeluarkan tiga model sekali gus awal pagi ini: Gemini 2.0 Pro, Gemini 2.0 Flash dan Gemini 2.0 Flash-Lite.

Pada ranking LMSYS model besar, Gemini 2.0-Pro telah melonjak ke puncak, dan keluarga Gemini-2.0 semuanya telah mara ke 10 teratas.

Jadual Kandungan

Mari kita lihat prestasi model dahulu

The Model Gemini 2.0 dikeluarkan kali ini semuanya mempunyai sorotan tersendiri dari segi prestasi!

Gemini 2.0 Pro (Percubaan)

Sebagai model perdana daripada siri Gemini, versi Pro mewakili keupayaan AI paling maju Google dan cemerlang dalam pengekodan dan inferens khususnya:

Tetingkap konteks lebih besar: menyokong pemprosesan konteks sehingga token 2M
Penyepaduan alat yang berkuasa: menyepadukan carian Google dan pelaksanaan kod secara mendalam
Ketersediaan: sudah tersedia sebagai versi percubaan di Google AI Studio, Vertex AI dan platform Gemini Advanced

Gemini 2.0 Flash

diletakkan sebagai a “kuda kerja yang sangat cekap”. Ia direka bentuk dengan tumpuan pada mengimbangi kelajuan dan prestasi, dan bertujuan untuk menyediakan sokongan ideal untuk senario aplikasi yang memerlukan respons kependaman rendah:

Berjuta-juta tetingkap konteks: Menyokong konteks token 1M
Keupayaan inferens multimodal yang sangat baik: Pandai memproses data multimodal, pada masa ini menyokong input multimodal dan input teks mod tunggal
Peluasan ciri masa hadapan: Penjanaan imej dan fungsi teks ke pertuturan akan tersedia tidak lama lagi
Ketersediaan: Dikeluarkan secara rasmi pada platform Vertex AI Studio dan Google AI Studio, dan boleh diakses melalui API Gemini.

Gemini 2.0 Flash-Lite (Pratonton)

Sebagai model "paling kos efektif", Flash-Lite menawarkan keseimbangan terbaik antara kelajuan, kos dan prestasi.

Kelebihan kos efektif: Sambil mengekalkan kelajuan dan kos yang sama seperti 1.5 Flash, ia mengatasi 1.5 Flash dalam kebanyakan ujian penanda aras.
Tetingkap konteks peringkat juta: Juga menyokong token kuasa pemprosesan konteks 1M.

Menurut perbandingan penilaian prestasi yang dikeluarkan oleh Google, versi Gemini 2.0 Pro Experimental mencapai markah tertinggi dalam hampir semua ujian penanda aras, berprestasi cemerlang:

Ia berfungsi dengan baik dalam tugas penjanaan kod (seperti LiveCodeBench v5) dan masalah matematik yang kompleks (seperti algebra, geometri dan kalkulus). Di samping itu, terdapat peningkatan yang ketara dalam ujian pemahaman dokumen panjang yang kompleks.

Dan harga

Google juga merupakan pengeluar yang teliti dari segi keberkesanan kos API.

Sejuta token Gemini 2.0 Flash berharga kurang daripada satu dolar… Ia menyokong berbilang mod, carian rangkaian dan tetingkap konteks yang belum pernah berlaku sebelum ini.

Sebaliknya, Deepseek V3 kini berharga satu dolar untuk sejuta token, dan inferens R1 berharga empat dolar.

PS: Tetapi saya masih ingin mengucapkan terima kasih kepada DeepSeek kerana menurunkan harga. Sesiapa yang boleh menurunkan harga adalah keluarga.

Ini benar-benar terlalu murah! Berbanding dengan persembahan, saya rasa apa yang Gemini telah terlepas pandang ialah harganya!

Prestasi kes

Memandangkan ia mendakwa sebagai sebaik Deepseek, kita pastinya perlu melihat prestasinya dalam kes dan melihat bagaimana pelbagai netizen telah mengujinya

Permainan pinball berasaskan fizik

Mari kita lihat dahulu kes popular ini, yang menggunakan enjin fizik untuk mensimulasikan kesan realistik seperti perlanggaran, geseran dan graviti.

Petunjuk: Tulis program Python yang memaparkan bola melantun di dalam heksagon berputar. Bola harus dipengaruhi oleh graviti dan geseran, dan mesti melantun secara realistik dari dinding berputar

Beginilah prestasi Deepseek R1 dan o3-min:

Versi yang dihasilkan oleh Gemini 2.0 Pro Experimental:

Dua model yang selebihnya tidak menunjukkan prestasi yang baik

Gandakan kesukaran! Jadikan bola terbahagi kepada 100 bola!

Petunjuk: Tulis skrip untuk 100 bola kuning terang yang melantun di dalam sfera, pastikan anda mengendalikan pengesanan perlanggaran dengan betul. Buat sfera berputar perlahan-lahan. Pastikan bola kekal di dalam sfera. Laksanakan dalam p5.js

Syabas! Putaran perlahan sfera adalah sangat lancar, dan simulasi undang-undang fizikal adalah sangat baik. 100 bola juga berlanggar secara berterusan dan "melakukan tugas mereka" ~

Tulis skrip p5.js untuk mensimulasikan 25 zarah yang melantun di dalam ruang vakum di dalam bekas silinder. Gunakan warna yang berbeza untuk setiap bola dan pastikan mereka meninggalkan jejak untuk menunjukkan pergerakan mereka. Tambahkan putaran perlahan bekas untuk memerhatikan dengan lebih baik apa yang berlaku di tempat kejadian. Pastikan anda membuat pengesanan perlanggaran dan peraturan fizik yang sesuai untuk memastikan zarah kekal di dalam bekas. Tambah bekas sfera luaran. Tambahkan kesan zum masuk dan keluar perlahan pada keseluruhan pemandangan.

Soalan ujian strawberi yang tidak boleh dipintas

Dan netizen pintar (licik) telah membuang ujian strawberi klasik sekali lagi:

Berapa banyak r yang terdapat dalam strawberi

Dan Gemini 2.0 Flash Thinking Experimental mendapat jawapan yang betul:

Bos Google Jeff Dean secara peribadi menguji kemahiran pengaturcaraannya

Jeff Dean, ketua saintis di Google DeepMind dan Google Research, juga menguji kemahiran pengaturcaraan gelombang Gemini 2.0 Pro:

Dia meminta model itu melengkapkan permainan Boggle klasik, dan kod yang dihasilkan pada kali pertama selesai mencari semua perkataan yang sah dalam “petak huruf” permainan:

Lebih-lebih lagi, Jeff Dean berkata bahawa kod itu selesai hanya dalam 18.9 saat, yang sangat pantas.

Ketua Pegawai Eksekutif Google DeepMind penuh yakin dengan kemas kini utama model ini, dengan mengatakan bahawa keluaran ini meletakkan asas untuk Google mencapai kerja ejen pintar masa hadapan:

Ketua Pegawai Eksekutif Google Sundar Pichai sebelum ini telah menjelaskan bahawa 2025 akan menjadi tempoh kritikal bagi Google untuk mempercepatkan pembangunan dalam bidang AI. Rasanya selepas keluaran ini, laluan Google lebih jelas!

Berbanding dengan laluan gergasi lain, laluan AI Google lebih menumpukan pada kepraktisan dan secara langsung menyediakan pelbagai pilihan versi, sama seperti kotak alat AI, di mana anda boleh memilih dan memilih mengikut kehendak anda, mengikut keperluan anda, fleksibel dan mudah, dan mampu memenuhi semua jenis keperluan.

Gemini 2.0 mendominasi carta, manakala DeepSeek V3 menangis dalam harganya, dan juara kos efektif baharu dilahirkan!