Kemas Kini DeepSeek-R1-0528: Pemikiran Lebih Dalam, Penaakulan Lebih Kuat

The Model DeepSeek R1 telah menjalani peningkatan versi kecil, dengan versi semasa ialah DeepSeek-R1-0528. Apabila anda memasuki halaman web atau apl DeepSeek, dayakan ciri "Pemikiran Dalam" dalam antara muka dialog untuk mengalami versi terkini.

Berat model DeepSeek-R1-0528 telah dimuat naik ke HuggingFace

Sepanjang empat bulan yang lalu, DeepSeek-R1 telah melalui evolusi super, mencapai keupayaan pengekodan yang berada di luar carta dan masa berfikir yang jauh lebih lama. Walaupun ia mungkin bukan DeepSeek-R2 semua orang jangkakan, peningkatan dalam model DeepSeek-R1-0528 adalah besar.

Menurut laporan, model baharu itu dilatih pada DeepSeek-V3-0324 (dengan parameter 660B).

Mari kita lihat dengan pantas kemas kini utama dalam keluaran ini melalui jadual

Dimensi Keupayaan	deepseek-R1	Deepseek-R1-0528
Konteks Maksimum	64k(API)	128K(API)lebih lagi
Penjanaan Kod	liveCodeBench tutup openai O1	Berdekatan dengan O3
Kedalaman Penaakulan	Soalan yang kompleks memerlukan gesaan yang dibahagikan.	Menyokong 30-60 minit pemikiran mendalam
Sifat Semulajadi Bahasa	agak panjang	Struktur padat, tulisan serupa dengan O3
Kos Penggunaan	Sumber terbuka atau API$0.5/M	Sumber terbuka atau API$0.5/M

Jadual Kandungan

Keupayaan pemikiran mendalam yang dipertingkatkan

DeepSeek-R1-0528 masih menggunakan model DeepSeek V3 Base yang dikeluarkan pada Disember 2024 sebagai asasnya, tetapi semasa pasca latihan, lebih banyak kuasa pengkomputeran telah dilaburkan, dengan ketara meningkatkan kedalaman pemikiran dan keupayaan penaakulan model.

Model R1 yang dikemas kini telah mencapai prestasi peringkat teratas dalam kalangan semua model domestik dalam pelbagai penilaian penanda aras, termasuk matematik, pengaturcaraan dan logik am, dan prestasi keseluruhannya kini setanding dengan model peringkat teratas antarabangsa yang lain seperti o3 dan Gemini-2.5-Pro.

Keupayaan matematik dan pengaturcaraan: Dalam pertandingan matematik AIME 2025, ketepatan bertambah baik daripada 70% dalam versi sebelumnya kepada 87.5%; keupayaan penjanaan kod dalam ujian penanda aras LiveCodeBench adalah hampir setanding dengan model o3-tinggi OpenAI, mencapai markah lulus@1 ialah 73.3%.

Ujian pengguna menunjukkan bahawa DeepSeek-R1 baharu hanya menakjubkan dalam pengaturcaraan!

Pakar AI "karminski-dentist" menguji DeepSeek-R1-0528 dan Claude 4 Sonnet menggunakan gesaan yang sama dan mendapati bahawa:

Sama ada pantulan cahaya meresap pada dinding, arah pergerakan bola selepas hentaman, atau daya tarikan estetik panel kawalan, R1 jelas mengatasi persaingan.

Pengguna Haider. telah model membina sistem pemarkahan perkataan. R1 mempertimbangkan secara ringkas tugas itu dan segera menghasilkan dua fail—satu untuk kod dan satu lagi untuk ujian kerja—yang berjalan dengan sempurna pada percubaan pertama.

Sebelum ini, o3 adalah satu-satunya model yang mampu menyelesaikan tugasan ini. Kini, R1 sudah pasti model terbaik untuk tugas ini.

Ambil perhatian bahawa prestasi R1 sangat luar biasa kerana dua fail yang dipulangkannya berjalan dengan sempurna pada percubaan pertama, tanpa sebarang pengeditan atau percubaan semula, yang sangat jarang berlaku.

Sebelum ini, kebanyakan model sama ada ditamatkan dalam kes tepi, penyelesaian yang terlalu rumit atau kekurangan liputan ujian yang mencukupi.

Kedalaman inferens: Masa pemikiran satu tugasan dilanjutkan kepada 30–60 minit, dengan keupayaan penyelesaian masalah yang dipertingkatkan dengan ketara untuk isu yang kompleks (cth, simulasi fizik, teka-teki logik pelbagai langkah).

Masa berfikir yang lebih lama telah menjadi ciri yang paling banyak dibincangkan dalam talian. Sesetengah pengguna melaporkan bahawa masa berfikir R1 melebihi 25 minit dalam ujian dunia sebenar.

Selain itu, ini nampaknya satu-satunya model yang mampu menjawab dengan betul "Apakah 9.9 tolak 9.11?"

DeepSeek-R1-0528 mencapai prestasi cemerlang pada semua set data penilaian

Berbanding dengan versi R1 sebelumnya, model baharu menunjukkan peningkatan yang ketara dalam tugas penaakulan yang kompleks. Contohnya, dalam ujian AIME 2025, kadar ketepatan model baharu meningkat daripada 70% kepada 87.5%.

Peningkatan ini disebabkan oleh kedalaman penaakulan yang dipertingkatkan dalam model: pada set ujian AIME 2025, model lama menggunakan purata 12K token setiap soalan, manakala model baharu menggunakan purata 23K token setiap soalan, menunjukkan pemikiran yang lebih terperinci dan mendalam dalam proses penyelesaian masalah.

Selain itu, pasukan deepseek menyaring rantaian penaakulan daripada DeepSeek-R1-0528 dan Pangkalan Qwen3-8B yang diperhalusi, menghasilkan DeepSeek-R1-0528-Qwen3-8B.

Model 8B ini menduduki tempat kedua selepas DeepSeek-R1-0528 dalam ujian matematik AIME 2024, mengatasi prestasi Qwen3-8B (+10.0%) dan sepadan dengan Qwen3-235B.

Rantaian penaakulan DeepSeek-R1-0528 akan mempunyai implikasi yang ketara untuk penyelidikan akademik mengenai model penaakulan dan pembangunan industri model berskala kecil.

Sesetengah netizen memuji DeepSeek-R1 kerana dapat membetulkan rantaian penaakulan seperti o3 dan secara kreatif membina dunia seperti Claude.

Adalah penting untuk ambil perhatian bahawa DeepSeek ialah model sumber terbuka, menandakan kemenangan besar untuk model sumber terbuka.

Hasil perbandingan AIME 2024 untuk model sumber terbuka seperti DeepSeek-R1-0528-Qwen3-8B

Kemas kini keupayaan lain

Peningkatan halusinasi: Versi baharu DeepSeek R1 telah mengoptimumkan prestasi untuk isu "halusinasi". Berbanding dengan versi sebelumnya, model yang dikemas kini mencapai pengurangan 45–50% dalam kadar halusinasi merentas tugas seperti menulis semula dan menggilap, meringkaskan dan pemahaman bacaan, memberikan hasil yang lebih tepat dan boleh dipercayai.
Penulisan Kreatif: Berdasarkan versi R1 sebelumnya, model R1 yang dikemas kini telah dioptimumkan lagi untuk gaya penulisan esei, novel dan prosa, membolehkannya menghasilkan karya yang lebih panjang dan lebih lengkap dari segi struktur sambil mempersembahkan gaya penulisan yang lebih sejajar dengan pilihan manusia.
Seruan alat: DeepSeek-R1-0528 menyokong seruan alat (seruan alat tidak disokong dalam pemikiran). Skor penilaian Tau-Bench model semasa ialah 53.5% untuk syarikat penerbangan dan 63.9% untuk runcit, setanding dengan OpenAI o1-high, tetapi masih ketinggalan di belakang o3-High dan Claude 4 Sonnet.

Contoh menunjukkan ringkasan artikel web yang dijana menggunakan keupayaan penyeruan alat DeepSeek-R1-0528 melalui LobeChat. Selain itu, DeepSeek-R1-0528 telah dikemas kini dan dipertingkatkan dalam bidang seperti penjanaan kod bahagian hadapan dan main peranan.

Contoh menunjukkan aplikasi kad perkataan moden dan minimalis yang dibangunkan menggunakan HTML/CSS/JavaScript dengan menggunakan DeepSeek-R1-0528 pada halaman web.

Sorotan utama kemas kini DeepSeek-R1-0528

Keupayaan penaakulan yang mendalam setanding dengan model Google
Pengoptimuman penjanaan teks: lebih semula jadi dan lebih baik diformatkan
Gaya penaakulan yang unik: bukan sahaja lebih pantas tetapi juga lebih ketat
Sokongan untuk pemikiran jangka panjang: masa pemprosesan satu tugas boleh mencapai 30–60 minit

Keupayaan versi baharu DeepSeek-R1 telah diuji oleh kami. Walaupun ia adalah kemas kini "versi kecil", prestasinya telah dipertingkatkan secara 'epically'.

Lebih-lebih lagi dari segi keupayaan pengaturcaraan, rasanya sudah melepasi atau setanding dengan Claude 4 dan Gemini 2.5 Pro. Semua gesaan adalah "satu pukulan", tidak memerlukan pengubahsuaian! Dan ia boleh dijalankan terus dalam pelayar web untuk menunjukkan keupayaannya.

Anda dapat merasakan dengan jelas bahawa proses pemikiran versi DeepSeek-R1 baharu adalah lebih stabil.

Anda boleh bertanya kepada deepseek-R1 apa-apa soalan yang anda ingin tahu jawapannya, walaupun soalan anda agak mengarut, ia tetap akan berfikir dengan teliti dan mengatur logiknya. Kami amat mengesyorkan anda mencuba model deepseek-R1 terkini.

maklumat kemas kini API

API telah dikemas kini, tetapi antara muka dan kaedah panggilan kekal tidak berubah. API R1 baharu masih menyokong melihat proses pemikiran model dan kini turut menyokong Panggilan Fungsi dan JsonOutput.

Pasukan deepseek telah melaraskan maksud parameter max_tokens dalam API R1 baharu: max_tokens kini mengehadkan jumlah panjang output tunggal model (termasuk proses pemikiran), dengan nilai lalai 32K dan maksimum 64K. Pengguna API dinasihatkan untuk melaraskan parameter max_tokens dengan segera untuk mengelakkan output daripada dipotong lebih awal.

Untuk arahan terperinci tentang menggunakan model R1, sila rujuk kepada Panduan API deepseek R1:

Selepas kemas kini R1 ini, panjang konteks model pada tapak web rasmi, program mini, apl dan API akan kekal 64K. Jika pengguna memerlukan panjang konteks yang lebih panjang, mereka boleh memanggil versi sumber terbuka model R1-0528 dengan panjang konteks 128K melalui platform pihak ketiga yang lain.

Sumber terbuka

DeepSeek-R1-0528 menggunakan model asas yang sama seperti DeepSeek-R1 sebelumnya, dengan hanya penambahbaikan dibuat pada kaedah pasca latihan.

Apabila digunakan secara peribadi, hanya pusat pemeriksaan dan tokenizer_config.json (perubahan berkaitan panggilan alat) perlu dikemas kini. Parameter model ialah 685B (yang mana 14B adalah untuk lapisan MTP), dan versi sumber terbuka mempunyai panjang konteks 128K (panjang konteks 64K disediakan untuk web, apl dan API).

Kemas kini DeepSeek-R1-0528: Pemikiran Lebih Dalam, Penaakulan Lebih Kuat

Keupayaan pemikiran mendalam yang dipertingkatkan

Kemas kini keupayaan lain

maklumat kemas kini API

Sumber terbuka

Model kos rendah Google, siri Gemini 2.0, sedang menyerang: pertempuran untuk keberkesanan kos dalam model besar semakin sengit

Bagaimanakah DeepSeek dicipta? Analisis sejarah pertumbuhan DeepSeek

Produk AI arus perdana dunia memberi tumpuan kepada analisis dan garis panduan pengalaman pengguna yang komprehensif (termasuk DeepSeek dan GPT)

Google telah mengeluarkan tiga model baharu sekali gus: Gemini-2.0-Pro adalah percuma, mempunyai skor cemerlang dan menduduki tempat pertama, serta sesuai untuk pengekodan dan pemprosesan gesaan kompleks!

Ali Qwen2.5-Max memintas DeepSeek-V3! Netizen: AI China dengan pantas menutup jurang

The Showdown of the Top Four Models! A Review Showcases How Powerful Deepseek R1 Is

Tinggalkan Balasan Batal balasan

Keupayaan pemikiran mendalam yang dipertingkatkan

Kemas kini keupayaan lain

maklumat kemas kini API

Sumber terbuka

Catatan Serupa

Tinggalkan Balasan Batal balasan