The Model DeepSeek R1 telah mengalami sedikit peningkatan versi, dengan versi saat ini menjadi DeepSeek-R1-0528. Saat Anda memasuki halaman web atau aplikasi DeepSeek, aktifkan fitur “Deep Thinking” di antarmuka dialog untuk merasakan versi terbaru.
Berat model DeepSeek-R1-0528 telah diunggah ke HuggingFace

Selama empat bulan terakhir, DeepSeek-R1 telah mengalami evolusi super, mencapai kemampuan pengkodean yang tak tertandingi dan waktu berpikir yang jauh lebih lama. Meskipun mungkin bukan DeepSeek-R2 semua orang menduga, peningkatan pada model DeepSeek-R1-0528 sangatlah substansial.
Menurut laporan, model baru ini dilatih pada DeepSeek-V3-0324 (dengan parameter 660B).
Mari kita lihat sekilas pembaruan utama dalam rilis ini melalui tabel
Dimensi Kemampuan | deepseek-R1 | Pencarian mendalam-R1-0528 |
Konteks Maksimum | 64k (API) | 128K(API)bahkan lebih |
Pembuatan Kode | liveCodeBench tutup pembukaan O1 | Dekat dengan O3 |
Kedalaman Penalaran | Pertanyaan yang kompleks memerlukan petunjuk yang tersegmentasi. | Mendukung 30-60 menit berpikir mendalam |
Kealamian Bahasa | agak panjang | Struktur kompak, penulisan mirip dengan O3 |
Biaya Pemakaian | Open-source atau API$0.5/M | Open-source atau API$0.5/M |
Peningkatan kemampuan berpikir mendalam
DeepSeek-R1-0528 masih menggunakan model dasar DeepSeek V3 yang dirilis pada Desember 2024 sebagai fondasinya, tetapi selama pasca-pelatihan, lebih banyak daya komputasi diinvestasikan, yang secara signifikan meningkatkan kedalaman berpikir dan kemampuan penalaran model.
Model R1 yang diperbarui telah mencapai kinerja tingkat atas di antara semua model domestik dalam berbagai evaluasi tolok ukur, termasuk matematika, pemrograman, dan logika umum, dan kinerja keseluruhannya sekarang setara dengan model tingkat atas internasional lainnya seperti o3 dan Gemini-2.5-Pro.
- Kemampuan matematika dan pemrograman: Dalam kompetisi matematika AIME 2025, akurasi meningkat dari 70% pada versi sebelumnya menjadi 87,5%; kemampuan pembuatan kode dalam uji benchmark LiveCodeBench hampir setara dengan model o3-high OpenAI, yang memperoleh skor pass@1 yaitu 73,3%.
Pengujian pengguna menunjukkan bahwa DeepSeek-R1 baru sungguh menakjubkan dalam pemrograman!
Pakar AI “karminski-dentist” menguji DeepSeek-R1-0528 dan Claude 4 Sonnet menggunakan perintah yang sama dan menemukan bahwa:

Baik itu pantulan cahaya yang menyebar di dinding, arah pergerakan bola setelah benturan, atau daya tarik estetika panel kontrol, R1 jelas mengungguli pesaingnya.
Pengguna Haider. meminta model tersebut membangun sistem penilaian kata. R1 mempertimbangkan tugas tersebut secara singkat dan segera menghasilkan dua file—satu untuk kode dan satu lagi untuk pengujian kerja—yang berjalan dengan sempurna pada percobaan pertama.

Sebelumnya, o3 adalah satu-satunya model yang mampu menyelesaikan tugas ini. Kini, R1 tidak diragukan lagi merupakan model terbaik untuk tugas ini.
Perhatikan bahwa kinerja R1 sangat luar biasa karena kedua file yang dikembalikannya berjalan sempurna pada percobaan pertama, tanpa pengeditan atau percobaan ulang apa pun, yang mana hal ini sangat jarang terjadi.
Sebelumnya, sebagian besar model berakhir di kasus ekstrem, solusinya terlalu rumit, atau tidak memiliki cakupan pengujian memadai.
- Kedalaman inferensi: Waktu berpikir tugas tunggal diperluas hingga 30–60 menit, dengan kemampuan pemecahan masalah yang ditingkatkan secara signifikan untuk isu-isu kompleks (misalnya, simulasi fisika, teka-teki logika multi-langkah).
Waktu berpikir yang lebih lama telah menjadi fitur yang paling banyak dibicarakan secara daring. Beberapa pengguna melaporkan bahwa waktu berpikir R1 melebihi 25 menit dalam pengujian di dunia nyata.

Selain itu, model ini tampaknya menjadi satu-satunya yang mampu menjawab pertanyaan “Berapa 9,9 dikurangi 9,11?” secara konsisten dengan benar.


DeepSeek-R1-0528 mencapai kinerja yang sangat baik pada semua kumpulan data evaluasi
Dibandingkan dengan versi R1 sebelumnya, model baru ini menunjukkan peningkatan signifikan dalam tugas penalaran yang kompleks. Misalnya, dalam pengujian AIME 2025, tingkat akurasi model baru meningkat dari 70% menjadi 87,5%.
Peningkatan ini disebabkan oleh peningkatan kedalaman penalaran dalam model: pada set pengujian AIME 2025, model lama menggunakan rata-rata 12 ribu token per pertanyaan, sementara model baru menggunakan rata-rata 23 ribu token per pertanyaan, yang menunjukkan pemikiran yang lebih terperinci dan mendalam dalam proses pemecahan masalah.
Selain itu, tim deepseek menyaring rantai penalaran dari DeepSeek-R1-0528 dan menyempurnakan Qwen3-8B Base, menghasilkan DeepSeek-R1-0528-Qwen3-8B.
Model 8B ini menduduki peringkat kedua setelah DeepSeek-R1-0528 dalam tes matematika AIME 2024, mengungguli Qwen3-8B (+10.0%) dan menyamai Qwen3-235B.
Rantai penalaran DeepSeek-R1-0528 akan memiliki implikasi signifikan bagi penelitian akademis tentang model penalaran dan pengembangan industri model skala kecil.
Beberapa netizen memuji DeepSeek-R1 karena mampu mengoreksi rantai penalaran seperti o3 dan membangun dunia secara kreatif seperti Claude.

Penting untuk dicatat bahwa DeepSeek adalah model sumber terbuka, yang menandai kemenangan besar bagi model sumber terbuka.

Hasil perbandingan AIME 2024 untuk model sumber terbuka seperti DeepSeek-R1-0528-Qwen3-8B
Pembaruan kemampuan lainnya
- Peningkatan halusinasi: Versi baru DeepSeek R1 telah mengoptimalkan kinerja untuk masalah "halusinasi". Dibandingkan dengan versi sebelumnya, model yang diperbarui mencapai penurunan 45–50% dalam tingkat halusinasi di seluruh tugas seperti menulis ulang dan memoles, meringkas, dan memahami bacaan, sehingga memberikan hasil yang lebih akurat dan andal.
- Penulisan Kreatif: Berdasarkan versi R1 sebelumnya, model R1 yang diperbarui telah dioptimalkan lebih lanjut untuk gaya penulisan esai, novel, dan prosa, sehingga memungkinkannya menghasilkan karya yang lebih panjang dan lebih lengkap secara struktural sekaligus menyajikan gaya penulisan yang lebih sesuai dengan preferensi manusia.
- Pemanggilan alat: DeepSeek-R1-0528 mendukung pemanggilan alat (pemanggilan alat tidak didukung dalam pemikiran). Skor evaluasi Tau-Bench model saat ini adalah 53,5% untuk maskapai penerbangan dan 63,9% untuk ritel, sebanding dengan OpenAI o1-high, tetapi masih tertinggal di belakang o3-High dan Claude 4 Sonnet.
Contoh ini menunjukkan ringkasan artikel web yang dibuat menggunakan kemampuan pemanggilan alat DeepSeek-R1-0528 melalui LobeChat. Selain itu, DeepSeek-R1-0528 telah diperbarui dan ditingkatkan dalam beberapa area seperti pembuatan kode front-end dan permainan peran.

Contoh ini menunjukkan aplikasi kartu kata modern dan minimalis yang dikembangkan menggunakan HTML/CSS/JavaScript dengan memanggil DeepSeek-R1-0528 di halaman web.

Sorotan utama pembaruan DeepSeek-R1-0528
- Kemampuan penalaran mendalam yang sebanding dengan model Google
- Optimasi pembuatan teks: lebih alami dan berformat lebih baik
- Gaya penalaran yang unik: tidak hanya lebih cepat tetapi juga lebih ketat
- Dukungan untuk pemikiran jangka panjang: waktu pemrosesan tugas tunggal dapat mencapai 30–60 menit

Kemampuan versi baru DeepSeek-R1 telah kami uji. Meskipun ini adalah pembaruan "versi minor", kinerjanya telah ditingkatkan secara 'luar biasa'.
Khususnya dalam hal kemampuan pemrograman, rasanya seperti telah melampaui atau setara dengan Claude 4 dan Gemini 2.5 Pro. Semua perintah bersifat "satu kali pakai", tidak memerlukan modifikasi! Dan dapat dijalankan langsung di peramban web untuk menunjukkan kemampuannya.
Anda dapat dengan jelas merasakan bahwa proses berpikir versi DeepSeek-R1 baru lebih stabil.
Anda dapat mengajukan pertanyaan apa pun yang ingin Anda ketahui jawabannya kepada deepseek-R1, meskipun pertanyaan Anda agak tidak masuk akal, ia akan tetap berpikir dengan cermat dan menyusun logika. Kami sangat menyarankan Anda untuk mencoba model deepseek-R1 terbaru.
Informasi pembaruan API
API telah diperbarui, tetapi antarmuka dan metode pemanggilan tetap tidak berubah. API R1 yang baru masih mendukung tampilan proses berpikir model dan sekarang juga mendukung Pemanggilan Fungsi dan JsonOutput.
Tim deepseek telah menyesuaikan makna parameter max_tokens dalam API R1 yang baru: max_tokens sekarang membatasi panjang total keluaran tunggal model (termasuk proses berpikir), dengan nilai default 32K dan maksimum 64K. Pengguna API disarankan untuk segera menyesuaikan parameter max_tokens guna mencegah keluaran terpotong sebelum waktunya.
Untuk petunjuk rinci tentang penggunaan model R1, silakan lihat Panduan API deepseek R1:
Setelah pembaruan R1 ini, panjang konteks model di situs web resmi, program mini, aplikasi, dan API akan tetap 64K. Jika pengguna memerlukan panjang konteks yang lebih panjang, mereka dapat memanggil versi sumber terbuka model R1-0528 dengan panjang konteks 128K melalui platform pihak ketiga lainnya.
Sumber terbuka
DeepSeek-R1-0528 menggunakan model dasar yang sama seperti DeepSeek-R1 sebelumnya, hanya dengan perbaikan pada metode pasca-pelatihan.
Saat menerapkan secara privat, hanya checkpoint dan tokenizer_config.json (perubahan terkait pemanggilan alat) yang perlu diperbarui. Parameter model adalah 685B (14B di antaranya untuk lapisan MTP), dan versi sumber terbuka memiliki panjang konteks 128K (panjang konteks 64K disediakan untuk web, aplikasi, dan API).