Google telah mengeluarkan tiga model baharu sekali gus: Gemini-2.0-Pro adalah percuma, mempunyai skor cemerlang dan menduduki tempat pertama, serta sesuai untuk pengekodan dan pemprosesan gesaan kompleks!

Kisah tentang Gemi n i 2.0 sedang memecut.

Versi Eksperimen Flash Thinking pada bulan Disember membawa pembangun model yang berfungsi dengan kependaman rendah dan prestasi tinggi.

Awal tahun ini, 2.0 Flash Thinking Experimental telah dikemas kini dalam Google AI Studio untuk meningkatkan lagi prestasi dengan menggabungkan kelajuan Flash dengan keupayaan inferens yang dipertingkatkan.

Minggu lepas, versi Flash 2.0 yang dikemas kini telah dilancarkan sepenuhnya pada desktop Gemini dan aplikasi mudah alih.

Hari ini, tiga ahli baharu telah diumumkan pada masa yang sama: versi eksperimen Gemini 2.0 Pro, yang setakat ini menunjukkan prestasi terbaik dalam pengekodan dan gesaan kompleks, 2.0 Flash-Lite yang menjimatkan kos dan versi 2.0 Flash Thinking yang dipertingkatkan pemikiran.

Gemini 2.0 Pro menduduki tempat pertama dalam semua kategori. Gemini-2.0-Flash berada dalam kedudukan tiga teratas dalam pengekodan, matematik dan teka-teki. Flash-lite berada dalam sepuluh teratas dalam semua kategori.

Carta perbandingan kebolehan tiga model:

Semua model menyokong teks input dan output multimodal.

Lebih banyak kebolehan modal sedang dalam perjalanan. Carta kekuatan model dalam arena pengekodan

Peta haba kadar menang

Google melayan pengguna percuma lebih baik daripada OpenAI melayan pengguna Plus. Akses percuma ke Gemini 2.0 Pro Experimental dalam AI Studio:

Klik untuk bermain

Perkhidmatan Deepseek sentiasa memaparkan ralat menunggu... Ingat bahawa model bebas inferens pertama juga ialah 2.0 Flash Thinking, yang digunakan dalam Google aistudio.

Di samping itu, terdapat versi web Gemini:

Terdapat juga model inferens bersambung (jadi mengapa memisahkannya…)

Google mengeluarkan versi eksperimen Gemini 2.0 Pro, dan peningkatan dalam ujian penanda aras rasmi agak menarik perhatian.

Ia mempunyai keupayaan pengekodan yang paling berkuasa dan keupayaan untuk memproses gesaan yang kompleks, dan mempunyai keupayaan yang lebih baik untuk memahami dan menaakul tentang pengetahuan dunia daripada mana-mana model yang dikeluarkan oleh Google setakat ini.

Ia mempunyai tetingkap konteks terbesar (200k, dan konteks panjang saya adalah kelebihan yang agak besar bagi model Gemini), yang membolehkannya menganalisis dan memahami sejumlah besar maklumat secara menyeluruh dan memanggil alatan seperti carian Google dan pelaksanaan kod.

Dalam ujian MATH, ia mencapai 91.8%, peningkatan kira-kira 5 mata peratusan berbanding versi 1.5. Keupayaan penaakulan GPQA mencapai 64.7%, dan ujian pengetahuan dunia SimpleQA bahkan mencapai 44.3%.

Yang paling ketara ialah keupayaan pengaturcaraan. Ia mencapai 36.0% dalam ujian LiveCodeBench dan ketepatan penukaran Bird-SQL melebihi 59.3%. Ditambah dengan tetingkap konteks super besar sebanyak 2 juta token, ia sudah cukup untuk mengendalikan tugas analisis kod yang paling kompleks.

Anda boleh mencubanya dalam kursor.

Keupayaan pemahaman berbilang bahasa juga mengagumkan, dengan skor ujian Global MMLU 86.5%. MMMU pemahaman imej ialah 72.7%, dan keupayaan analisis video ialah 71.9%.

Gemini 2.0 Flash-Lite ialah keseimbangan yang menarik.

Ia mengekalkan kelajuan dan kos 1.5 Flash, tetapi membawa prestasi yang lebih baik. Tetingkap konteks dengan 1 juta token membolehkannya memproses lebih banyak maklumat.

Perkara yang paling praktikal ialah nisbah harga/prestasinya: penjanaan kapsyen untuk 40,000 foto berharga kurang daripada $1. Ini menjadikan AI lebih sederhana.

Blogger Shrivastava menyebut: Pengekodan Gemini 2.0 Pro adalah gila!

Petua: gunakan Three.js untuk membuat simulasi sistem suria. Tambahkan skala masa, menu lungsur turun fokus, tunjukkan orbit dan tunjukkan label. Cipta semuanya dalam satu fail supaya saya boleh menampalnya ke dalam editor dalam talian dan melihat output.

Di samping itu, sesetengah pengguna menyebut bahawa Gemini 2.0 Flash menghasilkan keputusan yang lebih baik dalam salah satu ujian paradoksnya sendiri:

Akhirnya, Google menyebut bahawa keselamatan Gemini 2.0, bukan hanya tampalan, adalah teras reka bentuk dari awal.

Biarkan model belajar mengkritik diri sendiri. Gunakan pembelajaran pengukuhan untuk membenarkan Gemini menilai jawapannya sendiri dan memberikan maklum balas yang lebih tepat. Ini menjadikannya lebih mantap apabila berurusan dengan topik sensitif.

Ujian pasukan merah automatik adalah menarik. Ia direka khusus untuk menghalang suntikan perkataan segera tidak langsung, seperti melengkapkan AI dengan sistem imun untuk menghalang seseorang daripada menyembunyikan arahan berniat jahat dalam data.

Catatan Serupa

Tidak dikategorikan

Berita tergempar! OpenAI mengeluarkan 2 model inferens baharu hari ini: o3-mini dan o3-mini-high.

Olehzddeepseeker 1 Februari 20251 Februari 2025

o3-mini dan o3-mini (tinggi) akan dikeluarkan hari ini. Pengguna biasa juga akan mendapat o3-mini, dan pengguna tambahan akan dapat menggunakan o3-mini (tinggi). o3-mini (tinggi) adalah kira-kira 200 mata lebih tinggi daripada o1 pada Codeforce, lebih pantas daripada o1, dan berprestasi lebih baik dalam pengekodan dan matematik, tetapi kosnya masih pada tahap o1-mini….

Tidak dikategorikan

Perlawanan Empat Model Terbaik! Tinjauan Mempamerkan Kehebatan Deepseek R1

Olehzddeepseeker 1 Jun 20251 Jun 2025

Sejak beberapa hari kebelakangan ini, Deepseek-R1 0528 telah menjadi sumber terbuka secara rasmi. Pada LiveCodeBench, prestasinya hampir setanding dengan o3 OpenAI (tinggi); dalam ujian penanda aras berbilang bahasa Aider, ia bertahan dengan Claude Opus. Apabila ia dilancarkan di tapak web rasmi, kami dengan cepat menguji keupayaan bahagian hadapannya dan mendapati ia sangat luar biasa…

Tidak dikategorikan

Gemini 2.0 mendominasi carta, manakala DeepSeek V3 menangis dalam harganya, dan juara kos efektif baharu dilahirkan!

Olehzddeepseeker 8 Februari 20258 Februari 2025

Keluarga Google Gemini 2.0 akhirnya lengkap! Ia mendominasi carta sebaik sahaja ia dikeluarkan. Di tengah-tengah pengejaran dan sekatan Deepseek, Qwen dan o3, Google mengeluarkan tiga model sekali gus awal pagi ini: Gemini 2.0 Pro, Gemini 2.0 Flash dan Gemini 2.0 Flash-Lite. Pada kedudukan LMSYS model besar, Gemini…

Tidak dikategorikan

Model kos rendah Google, siri Gemini 2.0, sedang menyerang: pertempuran untuk keberkesanan kos dalam model besar semakin sengit

Olehzddeepseeker 8 Februari 20258 Februari 2025

Kos yang tinggi untuk menggunakan model AI yang besar adalah sebab utama mengapa banyak aplikasi AI masih belum dilaksanakan dan dipromosikan. Memilih prestasi melampau bermakna kos kuasa pengkomputeran yang besar, yang membawa kepada kos penggunaan yang tinggi yang tidak dapat diterima oleh pengguna biasa. Persaingan untuk model AI yang besar adalah seperti perang tanpa asap. Selepas…

Tidak dikategorikan

Artifak pengurusan Model Bahasa Besar seperti DeepSeek: Cherry Studio, Chatbox, AnythingLLM, siapakah pemecut kecekapan anda?

Olehzddeepseeker 11 Februari 202511 Februari 2025

Ramai orang telah mula menggunakan dan menggunakan Model Bahasa Besar Deepseek secara tempatan, menggunakan Kotak Sembang sebagai alat visualisasi Artikel ini akan terus memperkenalkan dua artifak pengurusan dan visualisasi Model Bahasa Besar AI yang lain, dan akan membandingkan ketiga-tiganya secara terperinci untuk membantu anda menggunakan Model Bahasa Besar AI dengan lebih cekap. Pada tahun 2025,…

Tidak dikategorikan

Rahsia di sebalik DeepSeek 1 | Butiran DeepSeekMath dan GRPO

Olehzddeepseeker 9 Februari 20259 Februari 2025

Hari ini saya ingin berkongsi artikel daripada DeepSeek, bertajuk DeepSeekMath: Menolak Had Penaakulan Matematik dalam Model Bahasa Terbuka. Artikel ini memperkenalkan DeepSeekMath 7B, yang telah dilatih pada DeepSeek-Coder-Base-v1.5 7B berdasarkan koleksi 120B token berkaitan matematik, bahasa semula jadi dan data kod. Model itu mencapai skor menakjubkan 51.7% dalam peringkat kompetitif…

Catatan Serupa

Tinggalkan Balasan Batal balasan