Ia hampir dengan DeepSeek-R1-32B dan menghancurkan s1 Fei-Fei Li! UC Berkeley dan model inferens SOTA baharu sumber terbuka lain

Model inferens 32B hanya menggunakan 1/8 daripada data dan diikat dengan DeepSeek-R1 dengan saiz yang sama!

Baru-baru ini, institusi seperti Stanford, UC Berkeley, dan University of Washington telah bersama-sama mengeluarkan model inferens peringkat SOTA, OpenThinker-32B, dan juga mempunyai sumber terbuka sehingga 114k data latihan.

Laman utama Projek OpenThinker:

Muka Berpeluk OpenThinker:

Open thoughts Dataset:

Penemuan pasukan: Menggunakan set data berkualiti tinggi berskala besar dengan anotasi disahkan DeepSeek-R1 (berdasarkan penyulingan R1), model inferens SOTA boleh dilatih.

Kaedah khusus adalah untuk menskalakan data, mengesahkan proses inferens, dan menskalakan model.

OpenThinker-32B yang terhasil mengatasi model s1 dan s1.1 Li Fei-Fei dalam berbilang ujian penanda aras dalam matematik, pengekodan dan sains, dan hampir dengan R1-Distill-32B.

Perlu dinyatakan bahawa berbanding R1-Distill-32B, yang menggunakan 800k data (termasuk 600k sampel inferens), OpenThinker-32B hanya menggunakan 114k data untuk mencapai keputusan cemerlang yang hampir sama.

Selain itu, OpenThinker-32 juga mendedahkan semua berat model, set data, kod penjanaan data dan kod latihan!

Jadual Kandungan

Kurasi data

Para penyelidik melatih OpenThinker-32B menggunakan dataset OpenThoughts-114k yang sama seperti yang mereka telah melatih OpenThinker-7B sebelum ini.

Mereka menggunakan model DeepSeek-R1 untuk mengumpul proses penaakulan dan menjawab percubaan untuk set 173,000 soalan yang dipilih dengan teliti. Data mentah ini kemudiannya diterbitkan sebagai dataset OpenThoughts-Unverified-173k.

Langkah terakhir dalam proses adalah untuk menapis sampel data yang sepadan jika proses penaakulan gagal lulus pengesahan.

Rajah berikut memaparkan keseluruhan proses secara visual.

Pasukan penyelidik mula-mula memasukkan data sumber atau gesaan soalan, yang boleh datang dari bidang dan platform yang berbeza, seperti BAAI/TACO, DeepMind, penyerahan Python, dll., meliputi pelbagai aspek seperti kod, teka-teki, sains dan matematik.

Input yang pelbagai ini kemudiannya dihantar ke modul pemprosesan teras, DeepSeek-R1, di mana data dianalisis dan diproses. Soalan dibahagikan kepada tiga kategori: soalan sains, matematik dan teka-teki, dan kod.

Sesetengah keputusan tidak memerlukan pengesahan dan mungkin analisis mudah atau output langsung. Untuk sesetengah kandungan yang memerlukan pengesahan mendalam, model bahasa besar (LLM) digunakan untuk menilainya dengan cara yang setanding dengan GT (Ground Truth). Jika ia adalah kod, kod tersebut dilaksanakan dan ujian unit dilakukan untuk memastikan ketepatan dan keberkesanannya.

Akhirnya, hasil daripada arah yang berbeza boleh digabungkan untuk menjana pemikiran terbuka dan penyelesaian yang lebih komprehensif.

Pasukan penyelidik telah mengemas kini set data OpenThoughts-114k terakhir dengan konfigurasi yang dipanggil "metadata" yang mengandungi beberapa lajur tambahan yang digunakan untuk membina set data:

masalah
ground_truth_solution
test_cases (kod sahaja)
starter_code (kod sahaja)
DeepSeek_penaakulan
DeepSeek_penyelesaian
domain
sumber

Metadata tambahan ini akan memudahkan anda menggunakan set data ini dalam senario baharu, seperti penapisan data, penukaran domain, semakan pengesahan dan menukar templat proses inferens.

Metadata tambahan ini akan memudahkan penggunaan set data ini dan ia boleh dilakukan dengan hanya satu baris kod, seperti menapis, menukar domain, menyemak pengesahan dan menukar templat penjejakan inferens.

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

Pasukan penyelidik mengatakan bahawa mereka tidak sabar untuk melihat komuniti memanfaatkan soalan dan jawapan standard ini untuk penyelidikan tentang pembelajaran pengukuhan (RL) pada model OpenThinker. DeepScaleR telah menunjukkan bahawa pendekatan ini berfungsi dengan baik pada skala yang lebih kecil.

Pengesahan

Untuk tiba di set data OpenThoughts-114k terakhir, pasukan penyelidik mengesahkan jawapan dan menghapuskan respons yang salah.

Seperti yang ditunjukkan dalam jadual di bawah, mengekalkan inferens yang tidak lulus pengesahan boleh menjejaskan prestasi, walaupun model yang tidak disahkan masih menunjukkan prestasi yang baik berbanding model inferens 32B yang lain.

Peranan pengesahan adalah untuk mengekalkan kualiti anotasi R1 sambil mengembangkan kepelbagaian dan saiz set segera latihan. Sebaliknya, data yang tidak disahkan boleh dikembangkan dengan lebih mudah dan oleh itu juga patut diterokai dengan lebih lanjut.

Untuk masalah kod, kami melengkapkan pengesahan proses inferens dengan mengesahkan percubaan jawapan terhadap kes ujian sedia ada.

Diilhamkan oleh cabaran yang dihadapi semasa pelaksanaan kod, kami melaksanakan rangka kerja pelaksanaan kod dalam Kurator yang membolehkan pengguna melaksanakan kod pada skala, selamat dan mengesahkannya terhadap output yang dijangkakan.

Untuk masalah matematik, pasukan penyelidik menggunakan hakim LLM (Model Bahasa Besar) untuk pengesahan, yang menerima kedua-dua jawapan standard dan percubaan penyelesaian DeepSeek-R1.

Didapati bahawa menggunakan penilai LLM untuk penjanaan data dan bukannya enjin penghuraian yang lebih ketat (Math-Verify) menghasilkan kadar data berkesan yang lebih tinggi dan dibenarkan untuk latihan model hiliran dengan prestasi yang lebih baik.

Latihan

Pasukan penyelidik menggunakan LLaMa-Factory untuk memperhalusi Qwen2.5-32B-Instruct tiga kali pada dataset OpenThoughts-114k dengan panjang konteks 16k. Konfigurasi latihan lengkap boleh didapati di GitHub.

OpenThinker-32B telah dilatih selama 90 jam menggunakan empat nod 8xH100 P5 pada gugusan AWS SageMaker, untuk sejumlah 2,880 H100 jam.

Sementara itu, OpenThinker-32B-Unverified dilatih selama 30 jam pada superkomputer Leonardo menggunakan 96 nod 4xA100 (64GB setiap GPU), mengumpul 11,520 A100 jam.

Penilaian

Pasukan penyelidik menggunakan perpustakaan penilaian sumber terbuka Evalchemy untuk menilai semua model.

Untuk AIME24 dan AIME25, mereka mengira ketepatan dengan purata keputusan lima larian. Konfigurasi penilaian menggunakan parameter suhu 0.7, mengehadkan tindak balas model kepada 32,768 token, tidak menambah sebarang sistem tambahan atau kata gesaan pengguna dan tidak menggunakan sebarang strategi penyahkodan khas (seperti memaksa belanjawan).

Apabila projek OpenThoughts dilancarkan, mereka menetapkan matlamat untuk mencipta model data terbuka dengan prestasi yang boleh sepadan dengan DeepSeek-R1-Distill-Qwen-32B.

Sekarang jurang itu hampir dihapuskan.

Akhir sekali, pasukan penyelidik teruja dengan kemajuan pesat yang dicapai oleh komuniti dalam membina model inferens data terbuka sejak beberapa minggu lalu, dan berharap untuk terus bergerak ke hadapan berdasarkan pandangan masing-masing.

Keluaran sumber terbuka OpenThinker-32B menunjukkan bahawa sinergi antara data, pengesahan dan saiz model adalah kunci untuk meningkatkan keupayaan inferens.

Keputusan ini bukan sahaja menggalakkan pembangunan model inferens sumber terbuka, tetapi juga menyediakan sumber dan inspirasi yang berharga untuk seluruh komuniti AI.

Ia hampir dengan DeepSeek-R1-32B dan menghancurkan s1 Fei-Fei Li! UC Berkeley dan model inferens SOTA baharu sumber terbuka lain

Kurasi data

Pengesahan

Latihan

Penilaian

Qwen2.5-max vs DeepSeek R1: Perbandingan model yang mendalam: analisis penuh senario aplikasi

Ali Qwen2.5-Max memintas DeepSeek-V3! Netizen: AI China dengan pantas menutup jurang

Perlawanan Empat Model Terbaik! Tinjauan Mempamerkan Kehebatan Deepseek R1

Artifak pengurusan Model Bahasa Besar seperti DeepSeek: Cherry Studio, Chatbox, AnythingLLM, siapakah pemecut kecekapan anda?

Rahsia di sebalik DeepSeek 1 | Butiran DeepSeekMath dan GRPO

Paper-DeepSeek-R1: Insentif Keupayaan Penaakulan dalam LLM melalui Pembelajaran Pengukuhan

Tinggalkan Balasan Batal balasan

Kurasi data

Pengesahan

Latihan

Penilaian

Catatan Serupa

Tinggalkan Balasan Batal balasan