Kisah tentang Gemini 2.0 sedang memecut.

Versi Eksperimen Flash Thinking pada bulan Disember membawa pembangun model yang berfungsi dengan kependaman rendah dan prestasi tinggi.

Awal tahun ini, 2.0 Flash Thinking Experimental telah dikemas kini dalam Google AI Studio untuk meningkatkan lagi prestasi dengan menggabungkan kelajuan Flash dengan keupayaan inferens yang dipertingkatkan.

Minggu lepas, versi Flash 2.0 yang dikemas kini telah dilancarkan sepenuhnya pada desktop Gemini dan aplikasi mudah alih.

Hari ini, tiga ahli baharu telah diumumkan pada masa yang sama: versi eksperimen Gemini 2.0 Pro, yang setakat ini menunjukkan prestasi terbaik dalam pengekodan dan gesaan kompleks, 2.0 Flash-Lite yang menjimatkan kos dan versi 2.0 Flash Thinking yang dipertingkatkan pemikiran.

Gemini 2.0 Pro menduduki tempat pertama dalam semua kategori. Gemini-2.0-Flash berada dalam kedudukan tiga teratas dalam pengekodan, matematik dan teka-teki. Flash-lite berada dalam sepuluh teratas dalam semua kategori.

Carta perbandingan kebolehan tiga model:

Semua model menyokong teks input dan output multimodal.

Lebih banyak kebolehan modal sedang dalam perjalanan. Carta kekuatan model dalam arena pengekodan

Peta haba kadar menang

Google melayan pengguna percuma lebih baik daripada OpenAI melayan pengguna Plus. Akses percuma ke Gemini 2.0 Pro Experimental dalam AI Studio:

Klik untuk bermain

Perkhidmatan Deepseek sentiasa memaparkan ralat menunggu... Ingat bahawa model bebas inferens pertama juga ialah 2.0 Flash Thinking, yang digunakan dalam Google aistudio.

Di samping itu, terdapat versi web Gemini:

Terdapat juga model inferens bersambung (jadi mengapa memisahkannya…)

Google mengeluarkan versi eksperimen Gemini 2.0 Pro, dan peningkatan dalam ujian penanda aras rasmi agak menarik perhatian.

Ia mempunyai keupayaan pengekodan yang paling berkuasa dan keupayaan untuk memproses gesaan yang kompleks, dan mempunyai keupayaan yang lebih baik untuk memahami dan menaakul tentang pengetahuan dunia daripada mana-mana model yang dikeluarkan oleh Google setakat ini.

Ia mempunyai tetingkap konteks terbesar (200k, dan konteks panjang saya adalah kelebihan yang agak besar bagi model Gemini), yang membolehkannya menganalisis dan memahami sejumlah besar maklumat secara menyeluruh dan memanggil alatan seperti carian Google dan pelaksanaan kod.

Dalam ujian MATH, ia mencapai 91.8%, peningkatan kira-kira 5 mata peratusan berbanding versi 1.5. Keupayaan penaakulan GPQA mencapai 64.7%, dan ujian pengetahuan dunia SimpleQA bahkan mencapai 44.3%.

Yang paling ketara ialah keupayaan pengaturcaraan. Ia mencapai 36.0% dalam ujian LiveCodeBench dan ketepatan penukaran Bird-SQL melebihi 59.3%. Ditambah dengan tetingkap konteks super besar sebanyak 2 juta token, ia sudah cukup untuk mengendalikan tugas analisis kod yang paling kompleks.

Anda boleh mencubanya dalam kursor.

Keupayaan pemahaman berbilang bahasa juga mengagumkan, dengan skor ujian Global MMLU 86.5%. MMMU pemahaman imej ialah 72.7%, dan keupayaan analisis video ialah 71.9%.

Gemini 2.0 Flash-Lite ialah keseimbangan yang menarik.

Ia mengekalkan kelajuan dan kos 1.5 Flash, tetapi membawa prestasi yang lebih baik. Tetingkap konteks dengan 1 juta token membolehkannya memproses lebih banyak maklumat.

Perkara yang paling praktikal ialah nisbah harga/prestasinya: penjanaan kapsyen untuk 40,000 foto berharga kurang daripada $1. Ini menjadikan AI lebih sederhana.

Blogger Shrivastava menyebut: Pengekodan Gemini 2.0 Pro adalah gila!

Petua: gunakan Three.js untuk membuat simulasi sistem suria. Tambahkan skala masa, menu lungsur turun fokus, tunjukkan orbit dan tunjukkan label. Cipta semuanya dalam satu fail supaya saya boleh menampalnya ke dalam editor dalam talian dan melihat output.

Di samping itu, sesetengah pengguna menyebut bahawa Gemini 2.0 Flash menghasilkan keputusan yang lebih baik dalam salah satu ujian paradoksnya sendiri:

Akhirnya, Google menyebut bahawa keselamatan Gemini 2.0, bukan hanya tampalan, adalah teras reka bentuk dari awal.

Biarkan model belajar mengkritik diri sendiri. Gunakan pembelajaran pengukuhan untuk membenarkan Gemini menilai jawapannya sendiri dan memberikan maklum balas yang lebih tepat. Ini menjadikannya lebih mantap apabila berurusan dengan topik sensitif.

Ujian pasukan merah automatik adalah menarik. Ia direka khusus untuk menghalang suntikan perkataan segera tidak langsung, seperti melengkapkan AI dengan sistem imun untuk menghalang seseorang daripada menyembunyikan arahan berniat jahat dalam data.

Catatan Serupa

Tinggalkan Balasan

Alamat e-mel anda tidak akan disiarkan. Medan diperlukan ditanda dengan *