Model inferensi 32B hanya menggunakan 1/8 data dan dikaitkan dengan DeepSeek-R1 dengan ukuran yang sama!

Baru-baru ini, institusi seperti Stanford, UC Berkeley, dan University of Washington telah bersama-sama merilis model inferensi tingkat SOTA, Pemikir Terbuka-32B, dan juga telah membuka sumber data pelatihan hingga 114k.

Beranda Proyek OpenThinker:

OpenThinker Memeluk Wajah:

Kumpulan Data Pemikiran Terbuka:

Penemuan tim: Menggunakan kumpulan data berkualitas tinggi berskala besar dengan anotasi terverifikasi DeepSeek-R1 (berdasarkan distilasi R1), model inferensi SOTA dapat dilatih.

Metode spesifiknya adalah dengan menskalakan data, memverifikasi proses inferensi, dan menskalakan model.

OpenThinker-32B yang dihasilkan mengungguli model s1 dan s1.1 Li Fei-Fei dalam beberapa uji tolok ukur dalam matematika, pengodean, dan sains, dan mendekati R1-Distill-32B.

Perlu disebutkan bahwa dibandingkan dengan R1-Distill-32B, yang menggunakan 800 ribu data (termasuk 600 ribu sampel inferensi), OpenThinker-32B hanya menggunakan 114 ribu data untuk mencapai hasil luar biasa yang hampir sama.

Selain itu, OpenThinker-32 juga mempublikasikan semua bobot model, kumpulan data, kode pembuatan data, dan kode pelatihan!

Kurasi data

Para peneliti melatih OpenThinker-32B menggunakan kumpulan data OpenThoughts-114k yang sama seperti yang mereka gunakan sebelumnya untuk melatih OpenThinker-7B.

Mereka menggunakan model DeepSeek-R1 untuk mengumpulkan proses penalaran dan upaya menjawab untuk serangkaian 173.000 pertanyaan yang dipilih dengan cermat. Data mentah ini kemudian dipublikasikan sebagai kumpulan data OpenThoughts-Unverified-173k.

Langkah terakhir dalam proses ini adalah menyaring sampel data yang sesuai jika proses penalaran gagal lolos verifikasi.

Gambar berikut menampilkan keseluruhan proses secara visual.

Tim peneliti pertama-tama memasukkan data sumber atau pertanyaan yang diajukan, yang dapat berasal dari berbagai bidang dan platform, seperti BAAI/TACO, DeepMind, kiriman Python, dll., yang mencakup berbagai aspek seperti kode, teka-teki, sains, dan matematika.

Berbagai masukan ini kemudian diteruskan ke modul pemrosesan inti, DeepSeek-R1, tempat data dianalisis dan diproses. Pertanyaan dibagi menjadi tiga kategori: pertanyaan sains, matematika dan teka-teki, serta kode.

Beberapa hasil tidak memerlukan verifikasi dan mungkin berupa analisis sederhana atau keluaran langsung. Untuk beberapa konten yang memerlukan verifikasi mendalam, model bahasa besar (LLM) digunakan untuk menilainya dengan cara yang sebanding dengan GT (Ground Truth). Jika berupa kode, kode tersebut dieksekusi dan pengujian unit dilakukan untuk memastikan kebenaran dan efektivitasnya.

Akhirnya, hasil dari berbagai arah dapat digabungkan untuk menghasilkan pemikiran terbuka dan solusi yang lebih komprehensif.

Tim peneliti telah memperbarui dataset OpenThoughts-114k final dengan konfigurasi yang disebut “metadata” yang berisi beberapa kolom tambahan yang digunakan untuk membangun dataset:

  • masalah
  • solusi_kebenaran_dasar
  • test_cases (hanya kode)
  • starter_code (hanya kode)
  • DeepSeek_penalaran
  • DeepSeek_solusi
  • domain
  • sumber

Metadata tambahan ini akan memudahkan penggunaan kumpulan data ini dalam skenario baru, seperti pemfilteran data, peralihan domain, pemeriksaan verifikasi, dan perubahan templat proses inferensi.

Metadata tambahan ini akan memudahkan penggunaan kumpulan data ini, dan dapat dilakukan hanya dengan satu baris kode, seperti pemfilteran, perubahan domain, pemeriksaan verifikasi, dan perubahan templat pelacakan inferensi.

muat_dataset("pemikiran-terbuka/Pemikiran-Terbuka-114k", "metadata", pisah="latih")

Tim peneliti mengatakan mereka berharap dapat melihat komunitas memanfaatkan pertanyaan-pertanyaan dan jawaban standar ini untuk penelitian tentang pembelajaran penguatan (RL) pada model OpenThinker. DeepScaleR telah menunjukkan bahwa pendekatan ini bekerja dengan sangat baik pada skala yang lebih kecil.

Verifikasi

Untuk memperoleh dataset OpenThoughts-114k final, tim peneliti memverifikasi jawaban dan menghilangkan respons yang salah.

Seperti ditunjukkan dalam tabel di bawah, mempertahankan inferensi yang tidak lolos verifikasi dapat mengganggu kinerja, meskipun model yang tidak terverifikasi masih berkinerja baik dibandingkan dengan 32 model inferensi B lainnya.

Peran verifikasi adalah untuk menjaga kualitas anotasi R1 sambil memperluas keragaman dan ukuran set perintah pelatihan. Di sisi lain, data yang belum diverifikasi dapat diperluas dengan lebih mudah dan karenanya juga layak untuk dieksplorasi lebih lanjut.

Untuk masalah kode, kami menyelesaikan verifikasi proses inferensi dengan memverifikasi upaya jawaban terhadap kasus uji yang ada.

Terinspirasi oleh tantangan yang dihadapi selama eksekusi kode, kami menerapkan kerangka kerja eksekusi kode di Curator yang memungkinkan pengguna untuk mengeksekusi kode dalam skala besar, aman, dan memverifikasinya terhadap keluaran yang diharapkan.

Untuk masalah matematika, tim peneliti menggunakan hakim LLM (Model Bahasa Besar) untuk verifikasi, yang menerima jawaban standar dan upaya penyelesaian DeepSeek-R1.

Ditemukan bahwa penggunaan evaluator LLM untuk pembuatan data alih-alih mesin pengurai yang lebih ketat (Math-Verify) menghasilkan laju data efektif yang lebih tinggi dan memungkinkan pelatihan model hilir dengan kinerja yang lebih baik.

Pelatihan

Tim peneliti menggunakan LLaMa-Factory untuk menyempurnakan Qwen2.5-32B-Instruct sebanyak tiga kali pada set data OpenThoughts-114k dengan panjang konteks 16k. Konfigurasi pelatihan lengkap dapat ditemukan di GitHub.

OpenThinker-32B dilatih selama 90 jam menggunakan empat node P5 8xH100 pada kluster AWS SageMaker, dengan total 2.880 jam H100.

Sementara itu, OpenThinker-32B-Unverified dilatih selama 30 jam pada superkomputer Leonardo menggunakan 96 node 4xA100 (64GB per GPU), mengumpulkan 11.520 jam A100.

Evaluasi

Tim peneliti menggunakan pustaka evaluasi sumber terbuka Evalchemy untuk mengevaluasi semua model.

Untuk AIME24 dan AIME25, mereka menghitung akurasi dengan merata-ratakan hasil dari lima kali pengujian. Konfigurasi evaluasi menggunakan parameter suhu 0,7, membatasi respons model hingga 32.768 token, tidak menambahkan kata perintah sistem atau pengguna tambahan, dan tidak menggunakan strategi decoding khusus (seperti pemaksaan anggaran).

Ketika proyek OpenThoughts diluncurkan, mereka menetapkan tujuan untuk membuat model data terbuka dengan kinerja yang dapat menyamai DeepSeek-R1-Distill-Qwen-32B.

Kini kesenjangan itu hampir terhapuskan.

Akhirnya, tim peneliti gembira dengan kemajuan pesat yang telah dicapai komunitas dalam membangun model inferensi data terbuka selama beberapa minggu terakhir, dan berharap untuk terus bergerak maju berdasarkan wawasan satu sama lain.

Rilis sumber terbuka OpenThinker-32B menunjukkan bahwa sinergi antara data, validasi, dan ukuran model adalah kunci untuk meningkatkan kemampuan inferensi.

Hasil ini tidak hanya mendorong pengembangan model inferensi sumber terbuka, tetapi juga menyediakan sumber daya dan inspirasi berharga bagi seluruh komunitas AI.

Posting serupa

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *