
Cerita tentang Permatansaya 2.0 sedang mengalami percepatan.
Versi Flash Thinking Experimental pada bulan Desember menghadirkan kepada para pengembang model kerja dengan latensi rendah dan kinerja tinggi.
Awal tahun ini, 2.0 Flash Thinking Experimental diperbarui di Google AI Studio untuk lebih meningkatkan kinerja dengan menggabungkan kecepatan Flash dengan kemampuan inferensi yang ditingkatkan.
Minggu lalu, Flash versi 2.0 yang diperbarui diluncurkan sepenuhnya di desktop dan aplikasi seluler Gemini.
Hari ini, tiga anggota baru telah diluncurkan secara bersamaan: versi eksperimental Gemini 2.0 Pro, yang sejauh ini memiliki kinerja terbaik dalam pengkodean dan perintah kompleks, Flash-Lite 2.0 yang hemat biaya, dan versi 2.0 Flash Thinking yang ditingkatkan kemampuan berpikirnya.
Gemini 2.0 Pro berada di peringkat pertama di semua kategori. Gemini-2.0-Flash berada di peringkat tiga teratas dalam bidang pengkodean, matematika, dan teka-teki. Flash-lite berada di peringkat sepuluh teratas di semua kategori.


Bagan perbandingan kemampuan ketiga model:

Semua model mendukung masukan dan keluaran teks multimodal.
Lebih banyak kemampuan modal sedang dalam proses. Bagan kekuatan model dalam bidang pengkodean

Peta panas tingkat kemenangan

Google memperlakukan pengguna gratis lebih baik daripada OpenAI memperlakukan pengguna Plus. Akses gratis ke Gemini 2.0 Pro Experimental di AI Studio:

Layanan Deepseek selalu menampilkan kesalahan menunggu… Ingatlah bahwa model bebas inferensi pertama juga merupakan 2.0 Flash Thinking, yang digunakan di Google aistudio.

Selain itu ada juga versi web Gemini:
Ada juga model inferensi yang terhubung (jadi mengapa memisahkannya…)

Google merilis versi eksperimental Gemini 2.0 Pro, dan peningkatannya dalam uji benchmark resmi cukup menarik perhatian.

Ia memiliki kemampuan pengkodean paling canggih dan kemampuan untuk memproses perintah yang rumit, dan memiliki kemampuan lebih baik untuk memahami dan bernalar tentang pengetahuan dunia daripada model apa pun yang dirilis oleh Google sejauh ini.
Ia memiliki jendela konteks terbesar (200 ribu, dan konteks panjang saya merupakan keuntungan yang relatif besar dari model Gemini), yang memungkinkannya menganalisis dan memahami sejumlah besar informasi secara komprehensif, dan memanggil alat seperti pencarian Google dan eksekusi kode.
Dalam tes MATEMATIKA, ia mencapai 91,8%, meningkat sekitar 5 poin persentase dibanding versi 1.5. Kemampuan penalaran GPQA mencapai 64,7%, dan tes pengetahuan dunia SimpleQA bahkan mencapai 44,3%.
Yang paling menonjol adalah kemampuan pemrogramannya. Ia mencapai 36,0% dalam pengujian LiveCodeBench, dan akurasi konversi Bird-SQL melampaui 59,3%. Ditambah dengan jendela konteks superbesar yang memuat 2 juta token, ia cukup untuk menangani tugas analisis kode yang paling rumit.

Anda dapat mencobanya di kursor.
Kemampuan pemahaman multibahasa juga mengesankan, dengan skor tes Global MMLU sebesar 86,5%. Pemahaman gambar MMMU sebesar 72,7%, dan kemampuan analisis video sebesar 71,9%.
Gemini 2.0 Flash-Lite adalah keseimbangan yang menarik.
Kecepatan dan biayanya tetap sama dengan 1,5 Flash, tetapi kinerjanya lebih baik. Jendela konteks dengan 1 juta token memungkinkannya memproses lebih banyak informasi.
Hal yang paling praktis adalah rasio harga/kinerjanya: pembuatan teks untuk 40.000 foto biayanya lebih murah daripada $1. Hal ini membuat AI lebih membumi.

Blogger Shrivastava menyebutkan: Pengkodean Gemini 2.0 Pro gila!
Kiat: gunakan Three.js untuk membuat simulasi tata surya. Tambahkan skala waktu, menu tarik-turun fokus, tampilkan orbit, dan tampilkan label. Buat semuanya dalam satu berkas sehingga saya dapat menempelkannya ke editor daring dan melihat hasilnya.

Selain itu, beberapa pengguna menyebutkan bahwa Gemini 2.0 Flash menghasilkan hasil yang lebih baik dalam salah satu pengujian paradoksnya sendiri:

Terakhir, Google menyebutkan bahwa keamanan Gemini 2.0, bukan hanya patch, merupakan inti desain sejak awal.
Biarkan model belajar untuk bersikap kritis terhadap diri sendiri. Gunakan pembelajaran penguatan untuk membiarkan Gemini mengevaluasi jawabannya sendiri dan memberikan umpan balik yang lebih akurat. Ini membuatnya lebih tangguh saat menangani topik yang sensitif.
Pengujian tim merah otomatis menarik. Pengujian ini secara khusus dirancang untuk mencegah penyuntikan kata-kata perintah tidak langsung, yang seperti melengkapi AI dengan sistem kekebalan tubuh untuk mencegah seseorang menyembunyikan perintah jahat dalam data.