የ32ቢ ኢንፈረንስ ሞዴል ከመረጃው 1/8 ብቻ ይጠቀማል እና ከDeepSeek-R1 ተመሳሳይ መጠን ጋር የተሳሰረ ነው!
ልክ አሁን፣ እንደ ስታንፎርድ፣ ዩሲ በርክሌይ፣ እና የዋሽንግተን ዩኒቨርሲቲ ያሉ ተቋማት በጋራ የ SOTA-ደረጃ የማጣቀሻ ሞዴል አውጥተዋል፣ OpenThinker-32Bእንዲሁም እስከ 114k የሥልጠና መረጃን ክፍት አድርገዋል።

የቡድን ግኝት፡ በDeepSeek-R1 የተረጋገጡ ማብራሪያዎች (በ R1 ዳይሌሽን ላይ የተመሰረተ) ከፍተኛ ጥራት ያለው የውሂብ ስብስብ በመጠቀም የ SOTA ኢንፈረንስ ሞዴል ማሰልጠን ይቻላል።
ልዩ ዘዴው መረጃውን ማመዛዘን, የማጣቀሻ ሂደቱን ማረጋገጥ እና ሞዴሉን ማመጣጠን ነው.
የተገኘው OpenThinker-32B ከ Li Fei-Fei s1 እና s1.1 ሞዴሎች በሂሳብ፣ በኮዲንግ እና በሳይንስ በበርካታ የቤንችማርክ ፈተናዎች በልጦ ወደ R1-Distill-32B ቅርብ ነበር።
800k መረጃን (600k ኢንፈረንስ ናሙናዎችን ጨምሮ) ከ R1-Distill-32B ጋር ሲወዳደር OpenThinker-32B ተመሳሳይ ጥሩ ውጤቶችን ለማግኘት 114k ውሂብ ብቻ መጠቀሙን መጥቀስ ተገቢ ነው።

በተጨማሪም፣ OpenThinker-32 ሁሉንም የሞዴል ክብደቶች፣ የውሂብ ስብስቦች፣ የውሂብ ማመንጨት ኮድ እና የስልጠና ኮድ ይፋ አድርጓል!

የውሂብ መጠገን
ተመራማሪዎቹ ቀደም ሲል OpenThinker-7B የሰለጠኑትን ተመሳሳይ የOpenThoughts-114k ዳታ ስብስብ በመጠቀም OpenThinker-32Bን አሰልጥነዋል።
በጥንቃቄ የተመረጡ 173,000 ጥያቄዎችን የማመዛዘን ሂደቶችን ለመሰብሰብ እና ሙከራዎችን ለመመለስ DeepSeek-R1 ሞዴል ተጠቅመዋል። ይህ ጥሬ መረጃ እንደ OpenThoughts-Unverified-173k የውሂብ ስብስብ ታትሟል።
የሂደቱ የመጨረሻ ደረጃ የማመዛዘን ሂደቱ ማረጋገጫውን ካላለፈ ተጓዳኝ የውሂብ ናሙናዎችን ማጣራት ነው.
የሚከተለው ምስል አጠቃላይ ሂደቱን በእይታ ያሳያል።
የምርምር ቡድኑ በመጀመሪያ የምንጭ መረጃን ወይም የጥያቄ ጥያቄዎችን ያስገባል፣ እነዚህም ከተለያዩ መስኮች እና መድረኮች እንደ BAAI/TACO፣ DeepMind፣ Python submissions ወዘተ ሊመጡ የሚችሉ እንደ ኮድ፣ እንቆቅልሽ፣ ሳይንስ እና ሒሳብ ያሉ የተለያዩ ገጽታዎችን ይሸፍናል።
እነዚህ የተለያዩ ግብዓቶች ከዚያም ወደ ኮር ፕሮሰሲንግ ሞጁል DeepSeek-R1 ይተላለፋሉ እና መረጃው የሚመረመርበት። ጥያቄዎቹ በሶስት ምድቦች የተከፋፈሉ ናቸው፡ የሳይንስ ጥያቄዎች፣ ሂሳብ እና እንቆቅልሽ እና ኮድ።
አንዳንድ ውጤቶች ማረጋገጫ አያስፈልጋቸውም እና ቀላል ትንታኔዎች ወይም ቀጥተኛ ውጤቶች ሊሆኑ ይችላሉ። ጥልቅ ማረጋገጫ ለሚፈልጉ አንዳንድ ይዘቶች፣ ትልቅ የቋንቋ ሞዴል (LLM) ከGT (Ground Truth) ጋር በሚመሳሰል መልኩ ለመፍረድ ስራ ላይ ይውላል። ኮድ ከሆነ, ኮዱ ተፈፀመ እና ትክክለኛነቱን እና ውጤታማነቱን ለማረጋገጥ የክፍል ሙከራዎች ይከናወናሉ.
በመጨረሻም ከተለያየ አቅጣጫ የሚገኘውን ውጤት በማጣመር ክፍት አስተሳሰብን እና አጠቃላይ መፍትሄዎችን መፍጠር ይቻላል።

የምርምር ቡድኑ የመጨረሻውን የOpenThoughts-114k ዳታ ስብስብ "ሜታዳታ" በሚባል ውቅረት አዘምኗል ይህም የውሂብ ስብስብን ለመገንባት የሚያገለግሉ ተጨማሪ አምዶችን ይዟል፡
- ችግር
- መሬት_እውነት_መፍትሄ
- የፈተና_ኬዝ (ኮድ ብቻ)
- ማስጀመሪያ_ኮድ (ኮድ ብቻ)
- DeepSeek_ምክንያት
- DeepSeek_መፍትሄ
- ጎራ
- ምንጭ
እነዚህ ተጨማሪ ሜታዳታ ይህንን የውሂብ ስብስብ እንደ ውሂብ ማጣሪያ፣ ጎራ መቀየር፣ የማረጋገጫ ፍተሻዎች እና የአስተሳሰብ ሂደት አብነት መቀየር ባሉ አዳዲስ ሁኔታዎች ውስጥ ለመጠቀም ቀላል ያደርገዋል።
እነዚህ ተጨማሪ ሜታዳታ ይህን ዳታ ስብስብ ለመጠቀም ቀላል ያደርጉታል፣ እና በአንድ የኮድ መስመር ብቻ ሊከናወን ይችላል፣ ለምሳሌ በማጣራት፣ ጎራውን መቀየር፣ ማረጋገጫውን መፈተሽ እና የኢንፈረንስ መከታተያ አብነት መለወጥ።
ሎድ_ዳታ ስብስብ("ክፍት-ሀሳቦች/ክፍት ሀሳቦች-114k"፣"ሜታዳታ"፣ክፍሎ = "ባቡር")
የምርምር ቡድኑ ማህበረሰቡ እነዚህን ጥያቄዎች እና መደበኛ መልሶችን በOpenThinker ሞዴል ላይ በማጠናከሪያ ትምህርት (RL) ላይ ምርምር ሲያደርግ ለማየት በጉጉት እንደሚጠባበቅ ተናግሯል። DeepScaleR ይህ አካሄድ በተለይ በትናንሽ ሚዛኖች ላይ በጥሩ ሁኔታ እንደሚሰራ አስቀድሞ አሳይቷል።
ማረጋገጥ
በመጨረሻው የOpenThoughts-114k ዳታ ስብስብ ላይ ለመድረስ፣የተመራማሪው ቡድን መልሶቹን አረጋግጧል እና የተሳሳቱ ምላሾችን አስወግዷል።
ከታች ባለው ሠንጠረዥ ላይ እንደሚታየው ማረጋገጫን የማያልፉ ፍንጮችን ማቆየት አፈጻጸሙን ሊጎዳ ይችላል፣ ምንም እንኳን ያልተረጋገጠው ሞዴል ከሌሎቹ 32B ኢንቬንሽን ሞዴሎች ጋር ሲወዳደር ጥሩ ቢሆንም።
የማረጋገጫ ሚና የስልጠና ፈጣን ስብስብን ልዩነት እና መጠን በማስፋት የ R1 ማብራሪያዎችን ጥራት መጠበቅ ነው. በሌላ በኩል፣ ያልተረጋገጠ መረጃ በቀላሉ ሊሰፋ ይችላል፣ እና ስለዚህ የበለጠ ማሰስ ተገቢ ነው።

ለኮድ ችግሮች፣ በነባር የፈተና ጉዳዮች ላይ የሚደረጉ የመልስ ሙከራዎችን በማረጋገጥ የማጣራት ሂደቱን እናጠናቅቃለን።
በኮድ አፈጻጸም ወቅት ያጋጠሙ ተግዳሮቶች በመነሳሳት፣ ተጠቃሚዎች ኮድን በሚፈለገው መጠን፣ ደህንነቱ በተጠበቀ ሁኔታ እንዲፈጽሙ እና ከሚጠበቀው ውጤት አንጻር እንዲያረጋግጡ የሚያስችል የኮድ አፈጻጸም ማዕቀፍ በኩሬተር ውስጥ ተግባራዊ አደረግን።
ለሒሳብ ችግሮች፣ የምርምር ቡድኑ ለማረጋገጫ LLM (ትልቅ የቋንቋ ሞዴል) ዳኛ ተጠቅሟል፣ ይህም ሁለቱንም መደበኛ መልስ እና የDeepSeek-R1 የመፍትሄ ሙከራ ይቀበላል።
ይበልጥ ጥብቅ ከሆነው የመተንተን ሞተር (Math-Verify) ይልቅ የኤልኤልኤም ገምጋሚውን ለዳታ ማመንጨት መጠቀሙ ከፍተኛ የውጤታማነት የውሂብ መጠን ያስገኘ እና የተሻለ አፈጻጸም ያላቸውን የታችኛው ተፋሰስ ሞዴሎችን ለማሰልጠን የሚያስችል መሆኑ ታውቋል።

ስልጠና
የምርምር ቡድኑ Qwen2.5-32B-በOpenThoughts-114k ዳታሴስት ላይ ሶስት ጊዜ ለማስተማር LLaMa-ፋብሪካን ተጠቅሞ የአውድ ርዝመት 16k ነው። የተሟላ የሥልጠና ውቅር በ GitHub ላይ ሊገኝ ይችላል።
OpenThinker-32B በ AWS SageMaker ክላስተር ላይ አራት 8xH100 P5 ኖዶችን በመጠቀም ለ90 ሰአታት የሰለጠነው በድምሩ 2,880 H100-ሰዓት ነው።
ይህ በእንዲህ እንዳለ OpenThinker-32B-Unverified 11,520 A100 ሰአታት በማጠራቀም 96 4xA100 ኖዶች (በጂፒዩ 64ጂቢ) በመጠቀም ለ30 ሰአታት በሊዮናርዶ ሱፐር ኮምፒዩተር ሰልጥኗል።
ግምገማ
የምርምር ቡድኑ ሁሉንም ሞዴሎች ለመገምገም ክፍት ምንጭ ግምገማ ላይብረሪውን ኢቫልኬሚ ተጠቅሟል።
ለ AIME24 እና AIME25 የአምስት ሩጫ ውጤቶችን በአማካይ በማስላት ትክክለኝነቱን ያሰላሉ። የግምገማው ውቅረት የሙቀት መለኪያ 0.7 ተጠቅሟል፣ የሞዴሉን ምላሽ ለ32,768 ቶከኖች ገድቧል፣ ምንም ተጨማሪ ስርዓት ወይም የተጠቃሚ ፈጣን ቃላትን አልጨመረም እና ምንም አይነት ልዩ የመግለጫ ስልቶችን አልተጠቀመም (ለምሳሌ የበጀት ማስገደድ)።
የOpenThoughts ፕሮጀክት ሲጀመር ከDeepSeek-R1-Distill-Qwen-32B ጋር ሊመሳሰል የሚችል አፈጻጸም ያለው ክፍት የውሂብ ሞዴል የመፍጠር ግብ አወጡ።
አሁን ያ ክፍተት ተወግዷል ማለት ይቻላል።
በመጨረሻም የምርምር ቡድኑ ህብረተሰቡ ባለፉት ሳምንታት ክፍት የመረጃ ጠቋሚ ሞዴሎችን በመገንባት እያስመዘገበው ባለው ፈጣን እድገት የተደሰተ ሲሆን እርስ በእርስ ግንዛቤን መሰረት በማድረግ ወደፊት ለመራመድ ይጓጓል።
የOpenThinker-32B የክፍት ምንጭ ልቀት የሚያሳየው በውሂብ፣ በማረጋገጫ እና በሞዴል መጠን መካከል ያሉ ጥምረቶች የማመዛዘን ችሎታዎችን ለማሻሻል ቁልፍ ናቸው።
ይህ ውጤት የክፍት ምንጭ ኢንፈረንስ ሞዴሎችን ማሳደግ ብቻ ሳይሆን ጠቃሚ ግብአቶችን እና ለመላው AI ማህበረሰብ መነሳሳትን ይሰጣል።