Mtindo wa uelekezaji wa 32B hutumia 1/8 pekee ya data na inaunganishwa na DeepSeek-R1 ya ukubwa sawa!

Hivi sasa, taasisi kama vile Stanford, UC Berkeley, na Chuo Kikuu cha Washington kwa pamoja wametoa mfano wa uelekezaji wa kiwango cha SOTA, OpenThinker-32B, na pia wametoa hadi data ya mafunzo ya 114k.

Ukurasa wa nyumbani wa Mradi wa OpenThinker:

Uso wa Kukumbatia OpenThinker:

Fungua Dataset ya mawazo:

Ugunduzi wa timu: Kwa kutumia mkusanyiko mkubwa wa data wa ubora wa juu na vidokezo vilivyothibitishwa DeepSeek-R1 (kulingana na kunereka kwa R1), muundo wa maelekezo wa SOTA unaweza kufunzwa.

Mbinu mahususi ni kuongeza data, kuthibitisha mchakato wa uelekezaji, na kuongeza kielelezo.

OpenThinker-32B iliyotokana ilifanya vyema zaidi miundo ya s1 na s1.1 ya Li Fei-Fei katika majaribio mengi ya kuigwa katika hisabati, usimbaji, na sayansi, na ilikuwa karibu na R1-Distill-32B.

Inafaa kutaja kuwa ikilinganishwa na R1-Distill-32B, ambayo ilitumia data ya 800k (pamoja na sampuli za uelekezaji 600k), OpenThinker-32B ilitumia data 114k pekee kufikia karibu matokeo bora sawa.

Kwa kuongezea, OpenThinker-32 pia iliweka hadharani uzani wote wa mfano, hifadhidata, msimbo wa kuunda data, na msimbo wa mafunzo!

Uhifadhi wa data

Watafiti walifunza OpenThinker-32B kwa kutumia hifadhidata ile ile ya OpenThoughts-114k kama walivyofunza OpenThinker-7B hapo awali.

Walitumia modeli ya DeepSeek-R1 kukusanya michakato ya hoja na kujibu majaribio ya seti iliyochaguliwa kwa uangalifu ya maswali 173,000. Data hii mbichi ilichapishwa kama mkusanyiko wa data wa OpenThoughts-Unverified-173k.

Hatua ya mwisho katika mchakato ni kuchuja sampuli za data zinazolingana ikiwa mchakato wa hoja utashindwa kupitisha uthibitishaji.

Kielelezo kifuatacho kinaonyesha mchakato mzima.

Timu ya utafiti kwanza huingiza data ya chanzo au vidokezo vya maswali, ambavyo vinaweza kutoka katika nyanja na majukwaa tofauti, kama vile BAAI/TACO, DeepMind, Python mawasilisho, n.k., inayoshughulikia vipengele mbalimbali kama vile msimbo, mafumbo, sayansi na hisabati.

Pembejeo hizi tofauti hupitishwa kwa moduli ya usindikaji ya msingi, DeepSeek-R1, ambapo data huchanganuliwa na kuchakatwa. Maswali yamegawanywa katika makundi matatu: maswali ya sayansi, hisabati na mafumbo, na kanuni.

Baadhi ya matokeo hayahitaji uthibitishaji na yanaweza kuwa uchanganuzi rahisi au matokeo ya moja kwa moja. Kwa baadhi ya maudhui ambayo yanahitaji uthibitishaji wa kina, muundo mkubwa wa lugha (LLM) hutumiwa kutathmini kwa njia inayolinganishwa na GT (Ukweli wa Msingi). Ikiwa ni msimbo, msimbo unatekelezwa na majaribio ya kitengo hufanywa ili kuhakikisha usahihi na ufanisi wake.

Hatimaye, matokeo kutoka pande tofauti yanaweza kuunganishwa ili kutoa fikra iliyo wazi na masuluhisho ya kina zaidi.

Timu ya utafiti imesasisha hifadhidata ya mwisho ya OpenThoughts-114k kwa usanidi unaoitwa "metadata" ambao una safu wima zingine za ziada zinazotumiwa kuunda seti ya data:

  • tatizo
  • suluhu_la_ukweli_msingi
  • test_cases (code tu)
  • starter_code (msimbo pekee)
  • DeepSeek_kusababu
  • DeepSeek_suluhisho
  • kikoa
  • chanzo

Metadata hii ya ziada itarahisisha kutumia mkusanyiko huu wa data katika hali mpya, kama vile kuchuja data, kubadili kikoa, ukaguzi wa uthibitishaji na kubadilisha kiolezo cha mchakato wa uelekezaji.

Metadata hizi za ziada zitarahisisha kutumia seti hii ya data, na inaweza kufanywa kwa mstari mmoja tu wa msimbo, kama vile kuchuja, kubadilisha kikoa, kuangalia uthibitishaji, na kubadilisha kiolezo cha ufuatiliaji wa makisio.

load_dataset("wazi-mawazo/OpenThoughts-114k", "metadata", split="treni")

Timu ya utafiti inasema wanatazamia kuona jumuiya ikitumia maswali haya na majibu ya kawaida kwa ajili ya utafiti kuhusu ujifunzaji wa kuimarisha (RL) kwenye modeli ya OpenThinker. DeepScaleR tayari imeonyesha kuwa mbinu hii inafanya kazi vizuri katika mizani ndogo.

Uthibitishaji

Ili kufikia seti ya mwisho ya OpenThoughts-114k, timu ya utafiti ilithibitisha majibu na kuondoa majibu yasiyo sahihi.

Kama inavyoonyeshwa kwenye jedwali lililo hapa chini, kuhifadhi makisio ambayo hayapiti uthibitishaji kunaweza kudhuru utendakazi, ingawa muundo ambao haujathibitishwa bado hufanya kazi vizuri ikilinganishwa na miundo mingine ya 32B ya maelekezo.

Jukumu la uthibitishaji ni kudumisha ubora wa maelezo ya R1 huku ukipanua utofauti na ukubwa wa seti ya maongozi ya mafunzo. Kwa upande mwingine, data ambayo haijathibitishwa inaweza kupanuliwa kwa urahisi zaidi na kwa hivyo inafaa pia kuchunguzwa zaidi.

Kwa matatizo ya msimbo, tunakamilisha uthibitishaji wa mchakato wa uelekezaji kwa kuthibitisha majaribio ya kujibu dhidi ya kesi zilizopo za majaribio.

Kwa kuchochewa na changamoto zinazokabili wakati wa utekelezaji wa nambari, tulitekeleza mfumo wa utekelezaji wa nambari katika Msimamizi ambao huwawezesha watumiaji kutekeleza nambari kwa kiwango kikubwa, kwa usalama na kuithibitisha dhidi ya matokeo yanayotarajiwa.

Kwa matatizo ya hisabati, timu ya utafiti ilitumia LLM (Muundo wa Lugha Kubwa) kwa uthibitishaji, ambayo hupokea jibu la kawaida na jaribio la DeepSeek-R1 la suluhisho.

Ilibainika kuwa kutumia kitathmini cha LLM kwa utengenezaji wa data badala ya injini ngumu zaidi ya uchanganuzi (Math-Thibitisha) kulitokeza kiwango cha juu cha ufanisi cha data na kuruhusiwa kwa mafunzo ya miundo ya chini iliyo na utendakazi bora.

Mafunzo

Timu ya utafiti ilitumia LLaMa-Factory kurekebisha vizuri Qwen2.5-32B-Agiza mara tatu kwenye seti ya data ya OpenThoughts-114k yenye urefu wa muktadha wa 16k. Usanidi kamili wa mafunzo unaweza kupatikana kwenye GitHub.

OpenThinker-32B ilifunzwa kwa saa 90 kwa kutumia nodi nne za 8xH100 P5 kwenye nguzo ya AWS SageMaker, kwa jumla ya saa 2,880 H100.

Wakati huo huo, OpenThinker-32B-Haijathibitishwa ilipata mafunzo kwa saa 30 kwenye kompyuta kuu ya Leonardo kwa kutumia nodi 96 4xA100 (64GB kwa kila GPU), ikikusanya saa 11,520 A100.

Tathmini

Timu ya utafiti ilitumia maktaba ya tathmini ya chanzo huria ya Evalchemy kutathmini miundo yote.

Kwa AIME24 na AIME25, walikokotoa usahihi kwa kufanya wastani wa matokeo ya mikimbio mitano. Usanidi wa tathmini ulitumia kigezo cha halijoto cha 0.7, ulipunguza jibu la mfano kwa tokeni 32,768, haukuongeza mfumo wowote wa ziada au maneno ya haraka ya mtumiaji, na haukutumia mikakati yoyote maalum ya kusimbua (kama vile kulazimisha bajeti).

Mradi wa OpenThoughts ulipozinduliwa, waliweka lengo la kuunda muundo wa data wazi na utendakazi ambao unaweza kulingana na DeepSeek-R1-Distill-Qwen-32B.

Sasa pengo hilo limekaribia kuondolewa.

Hatimaye, timu ya utafiti imefurahishwa na maendeleo ya haraka ambayo jumuiya imefanya katika kujenga miundo ya uelekezaji wa data wazi katika wiki chache zilizopita, na inatazamia kuendelea kusonga mbele kulingana na maarifa ya kila mmoja wao.

Toleo la chanzo huria la OpenThinker-32B linaonyesha kuwa maingiliano kati ya data, uthibitishaji, na ukubwa wa muundo ni muhimu katika kuboresha uwezo wa uelekezaji.

Matokeo haya hayaendelei tu uundaji wa miundo ya uelekezaji wa chanzo huria, lakini pia hutoa rasilimali muhimu na msukumo kwa jumuiya nzima ya AI.

Machapisho Yanayofanana

Toa Jibu

Barua-pepe haitachapishwa. Fildi za lazima zimetiwa alama ya *