ከ DeepSeek 1 ጀርባ ያለው ሚስጥር | DeepSeekMath እና GRPO ዝርዝሮች

ዛሬ ከDeepSeek የወጣውን DeepSeekMath፡የሒሳብ ማመዛዘን ገደቦችን በክፍት ቋንቋ ሞዴሎች መግፋት የሚል ርዕስ ላካፍላችሁ።

ይህ ጽሑፍ DeepSeekMath 7B ያስተዋውቃል፣ እሱም አስቀድሞ የሰለጠነ በ DeepSeek-Coder-Base-v1.5 7B ላይ የተመሰረተ 120B ከሒሳብ ጋር የተያያዙ ቶከኖች፣ የተፈጥሮ ቋንቋ እና ኮድ መረጃዎች ስብስብ።

ሞዴሉ በውድድር ደረጃ የሂሳብ መመዘኛዎች 51.7% አስደናቂ ውጤት አስመዝግቧል የውጭ መገልገያ መሳሪያዎች እና የድምጽ አሰጣጥ ቴክኒኮች ሳይታመኑ ወደ Gemini-Ultra እና GPT-4 የአፈጻጸም ደረጃ ተቃርቧል።

DeepSeekMath 7B የሂሳብ የማመዛዘን ችሎታ በሁለት ቁልፍ ነገሮች ይገለጻል፡ አንደኛ፣ በ በጥንቃቄ የተነደፈ የውሂብ ምርጫ ቧንቧ፣ ከፍተኛ ጥራት ያለው ከሂሳብ ጋር የተገናኘ መረጃ በሕዝብ ከሚገኝ የድር ውሂብ ደጋግሞ ይወጣል።

ሁለተኛ፣ የቡድን አንጻራዊ ፖሊሲ ማሻሻያ (GRPO) ነው። አስተዋወቀ፣ እሱም የPPO የማስታወስ አጠቃቀምን በሚያሳድግበት ጊዜ የሂሳብ የማመዛዘን ችሎታን ሊያሳድግ የሚችል የፕሮክሲማል ፖሊሲ ማሻሻያ (PPO) ልዩነት ነው።

የአሰራር ዘዴው ባህሪዎች እንደሚከተለው ተዘርዝረዋል-ከፍተኛ ጥራት ያለው የሂሳብ ቅድመ-ስልጠና ኮርፐስ የተሰራ ሲሆን በጥንቃቄ የተነደፈ የቧንቧ መስመር ከጋራ ክራውል ከፍተኛ ጥራት ያለው የሂሳብ መረጃን ለማውጣት ስራ ላይ ውሏል።
የ GRPO ስልተ ቀመር ለሥልጠና የሚያስፈልጉትን ሀብቶች የሚቀንስ እና የአምሳያው የሂሳብ የማመዛዘን ችሎታን የሚያሻሽል ሐሳብ ቀርቧል። 3) ዘመናዊ አፈጻጸም ነበር በብዙ የሂሳብ ማመዛዘን የቤንችማርክ ፈተናዎች ውስጥ ተገኝቷል.

ማውጫ

አጠቃላይ እይታ

ርዕስ፡- DeepSeekMath፡ የሒሳብ ማመዛዘን ገደቦችን በክፍት ቋንቋ ሞዴሎች መግፋት

URL፡ እዚህ ጠቅ ያድርጉ

ደራሲዎች፡- Zhihong Shao፣ Peiyi Wang፣ Qihao Zhu፣ Runxin Xu፣ Junxiao Song፣ Xiao Bi፣ Haowei Zhang፣ Mingchuan Zhang፣ YK Li፣ Y. Wu፣ Daya Guo

ኮድ፡- እዚህ ጠቅ ያድርጉ

ተነሳሽነት

የሂሳብ ማመዛዘን በሂሳብ ውስብስብነት እና በተዋቀረው ተፈጥሮ ምክንያት ለቋንቋ ሞዴሎች ትልቅ ፈተና ይፈጥራል። እንደ GPT-4 እና Gemini-Ultra ያሉ በጣም የላቁ ሞዴሎች ኃይለኛ ናቸው ግን በይፋ አይገኙም። ስለዚህ በአፈፃፀም ላይ ለማሻሻል ጉልህ ቦታ አለ ክፍት ምንጭ ሞዴሎች.

ውስብስብነት እና መዋቅር; የሂሳብ ማመዛዘን በሂሳብ ውስብስብነት እና በተዋቀረው ተፈጥሮ ምክንያት ለቋንቋ ሞዴሎች ትልቅ ፈተና ይፈጥራል።

ይፋዊ መረጃ ሊኖር የሚችል፡ በይፋ የሚገኝ የድረ-ገጽ መረጃ ገና ያልተመረተ እና ጥቅም ላይ ያልዋለ የሂሳብ መረጃን ሊይዝ ይችላል።

ዘዴዎች

መረጃ መሰብሰብ፡- ባለ 1TP8ቲማዝ ኮርፐስ 120B tokens የተሰራው ከፍተኛ ጥራት ያለው የሂሳብ ነክ ድረ-ገጽ መረጃን ከጋራ ክራውል በተደጋገመ የቧንቧ መስመር በመሰብሰብ ነው።

ሞዴል ስልጠና; ኮርፐሱ በDeepSeek-Coder-Base-v1.5 7B ላይ ለቅድመ-ሥልጠና ያገለግል ነበር፣ እና የሂሳብ መመሪያ ጥሩ ማስተካከያ እና የቡድን አንጻራዊ ፖሊሲ ማሻሻያ (GRPO) ስልተቀመር ተተግብሯል።

GRPO አልጎሪዝም፡- GRPO የተሻሻለ የማጠናከሪያ ትምህርት ስልተ-ቀመር ሲሆን በ PPO ውስጥ ያለውን የሂሪቲክ ሞዴልን ያስወግዳል እና ከቡድን ነጥብ የመነሻ መስመርን ይገምታል, በዚህም የስልጠና ሀብቶችን በእጅጉ ይቀንሳል.

ዝርዝር ዘዴዎች እና ሂደቶች;

መረጃ መሰብሰብ እና ማቀናበር;

DeepSeekMath ኮርፐስ ይገንቡ፡ ፈጣን ጽሑፍን መሰረት ያደረገ ክላሲፋየር በመጠቀም፣ 120B ከሂሳብ ጋር የተያያዙ ምልክቶችን ማውጣት ከጋራ ክራውል ትልቅ መጠን ያለው፣ ከፍተኛ ጥራት ያለው ቅድመ-የሰለጠነ ኮርፐስ፣ DeepSeekMath Corpus ለመገንባት።

ተደጋጋሚ ውሂብ ማጣሪያ; ተደጋጋሚ ስትራቴጂ ጥቅም ላይ ይውላል ፣ የመጀመሪያ ክላሲፋየርን ለማሰልጠን OpenWebMathን እንደ ዘር መረጃ በመጠቀም እና ከዚያ የበለጠ አዎንታዊ ምሳሌዎችን ለማግኘት ይህንን ክላሲፋየር በመጠቀም ክላሲፋየር አፈጻጸምን ያለማቋረጥ ለማመቻቸት ከጋራ ክራውል በእጅ የተብራራ።

ባለብዙ ቋንቋ ባህሪዎች DeepSeekMath ኮርፐስ ይዟል ባለብዙ ቋንቋ ውሂብበቻይንኛ የሂሳብ መለኪያዎች ላይ የአምሳያው አፈጻጸምን የሚያሻሽል.

ብክለትን ማስወገድ; ደ-የብክለት ማቀናበሪያ በስልጠናው መረጃ ላይ ከሙከራው መለኪያ ጋር መደራረብን ለማስወገድ ይከናወናል.

ቅድመ ስልጠና፡

በኮድ ላይ የተመሰረተ ሞዴል ማስጀመር፡- በመጠቀም ማስጀመር DeepSeek-Coder-Base-v1.5 7B ሞዴል ከአጠቃላይ LLM ጅምር የበለጠ ውጤታማ ሆኖ ተገኝቷል።

የቅድመ ስልጠና ውሂብ ቅንብር፡ 56% DeepSeekMath Corpus፣ 4% AlgebraicStack፣ 10% arXiv፣ 20% Github code፣ 10% የጋራ የጉብኝት የተፈጥሮ ቋንቋ መረጃ።

የቅድመ ሥልጠና መለኪያዎች፡- AdamW አመቻች ጥቅም ላይ ይውላል፣ የመማሪያ ፍጥነት 4.2e-4፣ ባች መጠን 10M ቶከኖች፣ እና 500B ቶከኖች በማሰልጠን።

መመሪያን ማስተካከል;

የመመሪያ ጥሩ ማስተካከያ የውሂብ ስብስብ ይገንቡ፡- የሒሳብ መመሪያ ጥሩ ማስተካከያ የውሂብ ስብስብ ይገንቡ 776 ኪ ናሙናዎች, የተለያዩ የሂሳብ መስኮችን እና የችግር ደረጃዎችን የሚሸፍን, CoT, PoT, እና በመሳሪያ የተዋሃዱ የማጣቀሻ ቅርጸቶችን ጨምሮ ደረጃዎችን መፍታት.

የሥልጠና መለኪያዎች ባች መጠን 256 ፣ የመማሪያ መጠን 5e-5 ፣ ለ 500 ደረጃዎች ባቡር።

የማጠናከሪያ ትምህርት - የቡድን አንጻራዊ ፖሊሲ ማሻሻል (GRPO)

የ GRPO አልጎሪዝም ሃሳብ ያቅርቡ፡ ሀሳብ አቅርቡ ሀ የ PPO ተለዋጭ አልጎሪዝም GRPO፣ ይህም የመነሻ መስመርን ለመገመት የቡድን ጥበባዊ ውጤቶችን በመጠቀም የትችት ሞዴል አስፈላጊነትን ያስወግዳል ፣ በዚህም የሥልጠና ሀብቶችን ይቀንሳል።.

ዓላማ ተግባር፡- GRPO ያንን ዓላማ ተግባር ከፍ በማድረግ የፖሊሲ ሞዴሉን ያሻሽላል የውስጠ-ቡድን ውጤቶች አንጻራዊ ጥቅምን ከግምት ውስጥ ያስገባ እና የ KL ልዩነትን እንደ መደበኛ ቃል በቀጥታ ይጨምራል።.

የጥቅማ ጥቅሞች ስሌት; GRPO ጥቅሙን ያሰላል በቡድን ውስጥ አንጻራዊ ሽልማቶች፣ የቡድን አቋራጭ ንጽጽሮችን በማስወገድ እና ከሽልማት ሞዴል ንጽጽር ባህሪ ጋር በተሻለ ሁኔታ መጣጣም.

ሁለቱንም የውጤት እና የሂደት ክትትልን ይደግፋል፡- GRPO ሁለቱንም የውጤት እና የሂደት ክትትልን መደገፍ እና ፖሊሲውን በብቃት መከታተል ይችላል። በእያንዳንዱ የግምገማ ደረጃ መጨረሻ ላይ ሽልማቶችን በማቅረብ.

ተደጋጋሚ RL፡ ኤ ይጠቀማል ተደጋጋሚ RL ስትራቴጂ በፖሊሲው ሞዴል ናሙና ውጤቶች ላይ የተመሰረተ አዲስ የሥልጠና ስብስብ ለማፍለቅ፣ የድሮውን የሽልማት ሞዴል ያለማቋረጥ ለማሰልጠን እና የፖሊሲውን ሞዴል ለማሻሻል አዲሱን የሽልማት ሞዴል ይጠቀሙ።

የሥልጠና መረጃ፡- ከGSM8K እና MATH ጋር የተያያዙ የ CoT ቅርጸት ችግሮችን በኤስኤፍቲ መረጃ ውስጥ ይጠቀማል፣ ወደ 144K ችግሮች።

የሥልጠና መለኪያዎች የፖሊሲው ሞዴል የመማር ፍጥነት 1e-6፣ የ KL ኮፊሸንት 0.04 ነው፣ ለእያንዳንዱ ችግር 64 ውፅዓቶች ናሙና ተወስዷል፣ ከፍተኛው ርዝመት 1024 ነው፣ እና የስልጠናው ባች መጠን 1024 ነው።

ማጠቃለያ

መደምደሚያ 1፡DeepSeekMath 7B ሁሉንም የክፍት ምንጭ ሞዴሎች በሒሳብ የማመዛዘን ችሎታ ይበልጣል። በተወዳዳሪው የሒሳብ መለኪያ ፈተና፣ DeepSeekMath 7B የ 51.7% ትክክለኛነትን አግኝቷል፣ ይህም ከጌሚኒ-አልትራ እና GPT-4 የአፈጻጸም ደረጃ ጋር ቅርብ ነው።

መደምደሚያ 2፡-በጥሩ ሁኔታ የተነደፈ የቅድመ ስልጠና መረጃ እና የ GRPO ስልተ ቀመሮች ለአምሳያው ስኬት ቁልፍ ናቸው። ከፍተኛ ጥራት ያለው የሂሳብ ኮርፐስ እና የጂአርፒኦ አልጎሪዝም ጥምረት ሞዴሉ በሂሳብ የማመዛዘን ተግባራት ውስጥ ከፍተኛ የአፈፃፀም ውጤቶችን እንዲያገኝ ያስችለዋል።

መደምደሚያ 3፡የኮድ ስልጠና የሂሳብ የማመዛዘን ችሎታን ለማሻሻል ይረዳል። በቅድመ ስልጠና ደረጃ ላይ የኮድ መረጃን ማከል የአምሳያው የሂሳብ ችግሮችን በመሳሪያም ሆነ ያለ መሳሪያ የመፍታት ችሎታን ያሻሽላል።

ማጠቃለያ 4፡ የተገደበ የarXiv ውሂብ ጥቅም፡ ከቀደምት እምነቶች በተቃራኒ፣ የarXiv መረጃ ሒሳባዊ አስተሳሰብን ለማሻሻል የተገደበ እገዛ ሆኖ ተገኝቷል።

ገደብ

የጂኦሜትሪ እና የማረጋገጥ ችሎታዎች በአንጻራዊነት ደካማ ናቸው፡- ምንም እንኳን DeepSeekMath በቁጥር አመክንዮ የላቀ ቢሆንም፣ በጂኦሜትሪ እና በማረጋገጫ ያለው አቅም አሁንም ከተዘጋ ምንጭ ሞዴሎች ያነሱ ናቸው። ይህ ምናልባት በቅድመ-ስልጠና እና በጥሩ ማስተካከያ ደረጃዎች ውስጥ ባለው የተዛባ የውሂብ ምርጫ ምክንያት ሊሆን ይችላል።

በትንሽ ናሙና አቅም ውስጥ ድክመት; DeepSeekMath በትንሽ ናሙና ትምህርት ከ GPT-4 ያነሰ ነው, ይህም በአምሳያው መጠን ውስንነት ምክንያት ሊሆን ይችላል.

የበለጠ ውጤታማ የማጠናከሪያ ትምህርት ዘዴዎች ያስፈልጋሉ: ምንም እንኳን በወረቀቱ ውስጥ የታቀዱት የማጠናከሪያ ትምህርት ዘዴዎች ውጤታማ ቢሆኑም አሁንም ለመሻሻል ቦታ አለ, ለምሳሌ ከሽልማት ሞዴል ግብረመልስን የበለጠ ውጤታማ በሆነ መንገድ እንዴት መጠቀም እንደሚቻል እና ጫጫታ የሚያሳዩ የሽልማት ምልክቶችን እንዴት መቋቋም እንደሚቻል.

ዝርዝሮች

የማጠናከሪያ ትምህርት አሰሳ እና ትንተና

አጠቃላይ እይታ፡-

የቡድን አንጻራዊ ፖሊሲ ማመቻቸት (GRPO) መግቢያ፡- ወረቀቱ አዲስ የማጠናከሪያ ትምህርት ስልተ ቀመር፣ GRPO፣ እንደ ፕሮክሲማል ፖሊሲ ማሻሻያ (PPO) ተለዋጭ ሀሳብ ያቀርባል። የ GRPO ዋናው ገጽታ እሱ ነው በፒፒኦ ውስጥ በብዛት ጥቅም ላይ የዋለውን የትችት ሞዴል ትቶ መነሻውን በቡድን ውጤቶች በመገመት ለሥልጠና የሚያስፈልጉትን የስሌት ግብዓቶች በእጅጉ ይቀንሳል።

የ GRPO ውጤታማነት ማሳያ፡- ወረቀቱ GRPO እንደሚችል በሙከራ ያሳያል በጎራ ውስጥ እና ከጎራ ውጭ ያሉ የሂሳብ ስራዎችን ጨምሮ የትዕዛዝ ጥሩ ማስተካከያ ሞዴሎችን አፈፃፀም በብቃት ማሻሻል.

የማጠናከሪያ ትምህርት ዘዴዎች የተዋሃደ ማዕቀፍ፡- ወረቀቱ እንደ የተለያዩ የማጠናከሪያ ትምህርት ዘዴዎችን ለመረዳት አንድ ወጥ የሆነ ማዕቀፍ ያቀርባል ውድቅ የተደረገ ናሙና ጥሩ ማስተካከያ (RFT)፣ ቀጥተኛ ምርጫ ማመቻቸት (DPO)፣ PPO እና GRPO. ማዕቀፉ እነዚህን ዘዴዎች እንደ ቀጥተኛ ወይም ቀላል የማጠናከሪያ ትምህርት ዘዴዎች አድርጎ ይመለከታቸዋል.

የማጠናከሪያ ትምህርት አካላትን በጥልቀት መመርመር፡- ወረቀቱ በጥልቀት ይመረምራል። የማጠናከሪያ ትምህርት ቁልፍ ነገሮች፣ እንደ የመስመር ላይ ስልጠና እና ከመስመር ውጭ ስልጠና፣ የውጤት ቁጥጥር እና የሂደት ቁጥጥር፣ ነጠላ ዙር የማጠናከሪያ ትምህርት እና ተደጋጋሚ የማጠናከሪያ ትምህርት፣ በዝርዝር ሙከራዎች ፣ እና የማጠናከሪያ ትምህርትን ውጤታማነት ለማሻሻል እምቅ አቅጣጫዎችን ያጠቃልላል።

GRPO (የቡድን አንጻራዊ ፖሊሲ ማሻሻያ) አልጎሪዝም

ገደቦች የ PPO PPO በብዛት ጥቅም ላይ የሚውል የማጠናከሪያ ትምህርት ስልተ ቀመር ነው፣ነገር ግን ስልጠና ያስፈልገዋል ተጨማሪ የትችት ሞዴል የዋጋውን ተግባር ለመገመት, ይህም ያስገድዳል ተጨማሪ የማስላት እና የማስታወስ ሸክም. በተጨማሪም፣ በኤልኤልኤም ሁኔታ፣ የትችት ሞዴል ስልጠና ውስብስብ ሊሆን ይችላል ምክንያቱም መገምገም ያስፈልገዋል የእያንዳንዱ ማስመሰያ ውጤት.

የ GRPO ዋና ሀሳብ፡- የ GRPO ዋና ሀሳብ ወደ የክሪቲክ ሞዴልን ትተህ በምትኩ የውጤቶችን ስብስብ አማካኝ ነጥብ እንደ መነሻ መስመር ለተመሳሳይ ችግር ተጠቀም። ይህ የመነሻ መስመር የጥቅሙን ተግባር ለመገመት እና ለፖሊሲ ማመቻቸት ሊያገለግል ይችላል።. ይህ አቀራረብ የስልጠናውን ውስብስብነት በእጅጉ ይቀንሳል.

የጥቅማጥቅሞች ስሌት; GRPO የጥቅም ተግባሩን ያሰላል በተመሳሳዩ የውጤቶች ስብስብ ውስጥ የእያንዳንዱን ውፅዓት አንጻራዊ ደረጃ በማስላት በተለየ የእሴት ተግባር ላይ ከመተማመን ይልቅ ልክ በፒ.ፒ.ኦ.

የKL ልዩነት ቅጣት፡- GRPO እንደ PPO ለሽልማቱ የKL ልዩነት ቅጣትን አይጨምርም፣ ይልቁንስ በፖሊሲው ሞዴል እና በማጣቀሻው ሞዴል መካከል ያለውን የKL ልዩነት በቀጥታ ወደ ኪሳራ ተግባር ያክላል። ይህ ውስብስብ የጥቅማጥቅሞችን ተግባር ስሌት ያስወግዳል.

የ GRPO ዋና ሀሳብ

ሃያሲ (የዋጋ ተግባር) አያስፈልገውም፡- GRPO የእሴት ተግባር አስፈላጊነትን ያስወግዳል እና መነሻውን ለመገመት በቡድን ውስጥ ያለውን ነጥብ ይጠቀማልበዚህም የሥልጠና ግብዓቶችን ይቀንሳል።

በቡድን ውስጥ አንጻራዊ ጥቅም፡- ለእያንዳንዱ ችግር q፣ GRPO ከአሮጌው ፖሊሲ π(θold) የውጤቶችን ስብስብ {o(1)፣ o(2)፣ …፣ o(G)} ናሙና ያቀርባል እና በመቀጠል የሚከተለውን እኩልታ እንደ አላማ ተግባር በማድረግ የፖሊሲ ሞዴሉን ያመቻቻል።

በተለይ፡-

እዚህ ያለው ቁልፉ Â(i,t) ነው, እሱም ጥቅሙን የሚያመለክት እና በ የቡድን ውፅዓት አንጻራዊ ሽልማትእንደ PPO በተለየ የእሴት ተግባር ላይ ከመታመን ይልቅ።

የዓላማው ተግባር እንዲሁ በቀጥታ ይጨምራል የ KL ልዩነት መጠኑን ለመቆጣጠር እንደ መደበኛነት ቃል የፖሊሲ ዝማኔዎች

እና ከሽልማቱ ሞዴል ንጽጽር ተፈጥሮ ጋር ይስተካከሉ፡ GRPO ጥቅሙን ለማስላት አንጻራዊውን የቡድን ሽልማቱን ይጠቀማል፣ ይህም ከሽልማት ሞዴል ባህሪይ ጋር ይበልጥ የሚጣጣም ነው፣ ይህም አብዛኛውን ጊዜ በጥንድ ንጽጽር ላይ የተመሰረተ ነው።

የGRPO የሽልማት ሞዴል እንዴት ሊቀረጽ ይችላል (DeepSeek R1 ይመልከቱ)?

ባህሪያት፡

የቅርጸት ሽልማት፡ ረጅም ትውልድ ያስገድዳል አልጋ ውጤቶች, ሞዴሉን የማመዛዘን ሂደቶችን እንዲያመነጭ እና የአምሳያው ተፅእኖን እንዲያሻሽል ሊገፋፋው ይችላል.

ትክክለኛነት ሽልማት; ሂሳብ የመጨረሻውን ውጤት ሊጠቀም ይችላል, እና ኮድ የማጠናከሪያ ግብረመልስን ሊጠቀም ይችላል.

የ GRPO ጥቅሞች

ያነሰ የማህደረ ትውስታ አሻራ; የትችት ሞዴል አያስፈልግም፣ የማህደረ ትውስታ መስፈርቶችን ይቀንሳል።

የበለጠ ውጤታማ ስልጠና; በቡድን ውስጥ አንጻራዊ ጥቅምን በመጠቀም ስሌት የስልጠና ሂደቱን ቀላል ያደርገዋል.

ከሽልማት ሞዴሎች ተፈጥሮ ጋር የበለጠ ተኳሃኝ፡ የስልጠና መረጋጋት እና ውጤታማነትን ያሻሽላል.

RL የተዋሃደ ፓራዳይም ማጠቃለያ

የተዋሃደ ፓራዲም ሃሳብ ቀርቧል

ደራሲዎቹ እንደ SFT (ክትትል የሚደረግበት ጥሩ ማስተካከያ)፣ RFT (Rejection Sampling Fine-Tuneing)፣ DPO (የቀጥታ ምርጫ ማሻሻያ)፣ PPO፣ GRPO፣ ወዘተ የመሳሰሉ የተለያዩ የሥልጠና ዘዴዎችን ለመረዳት የተዋሃደ ፓራዲም ሐሳብ አቅርበዋል። የ RL ቁልፍ አካላት፡- የተዋሃደ ማዕቀፍ ቁልፍ አካላት የሚከተሉትን ያካትታሉ፡ የውሂብ ምንጮች፣ የሽልማት ተግባራት እና ስልተ ቀመሮች።

የውሂብ ምንጭ፡- ይህ የሚያመለክተው ለሥልጠና ጥቅም ላይ የሚውለውን መረጃ ነው፣ እሱም በእጅ ከመለያ፣ ከኤስኤፍቲ ሞዴሎች ወይም ከእውነተኛ ጊዜ የፖሊሲ ሞዴሎች ሊወጣ ይችላል።
የሽልማት ተግባር፡- ይህ የሚያመለክተው የውጤቱን ጥራት ለመገምገም የሚያገለግል ሲሆን ይህም ደንብ ወይም ሞዴል ሊሆን ይችላል.
አልጎሪዝም፡- ይህ መረጃን ለማስኬድ እና የሽልማት ምልክት እና የሞዴል መለኪያዎችን ለማዘመን የሚያገለግል ዘዴን ይመለከታል።

በተዋሃደ ዘይቤ ላይ በመመርኮዝ የተለያዩ ዘዴዎች ትንተና

ሠንጠረዥ 10 በ SFT፣ RFT፣ DPO፣ Online RFT፣ PPO እና GRPO መካከል ያለውን ተመሳሳይነት እና ልዩነት ከመረጃ ምንጮች፣ ከሽልማት ተግባራት እና ከግራዲየንት ጥምርታ አንፃር ያጠቃልላል።

ዘዴ	የስልጠና ውሂብ	የሽልማት ተግባር	የግራዲየንት ቅንጅት	የስልጠና ዘዴ	ጥቅሞች / ባህሪያት	የሚመለከታቸው ሁኔታዎች
ኤስኤፍቲ	በእጅ የተለጠፈ የ SFT ውሂብ	በእጅ የተመረጠ (ስውር ሽልማት)	በ 1 ላይ ተስተካክሏል	ክትትል የሚደረግበት ትምህርት	ቀላል እና የተረጋጋ፣ በከፍተኛ ጥራት በተሰየመ ውሂብ ላይ የተመሰረተ	መሰረታዊ የሞዴል ስልጠና, የመጀመሪያ ደረጃ አሰላለፍ ተግባር
አርኤፍቲ	SFT የውሂብ ስብስብ ችግር + የ SFT ሞዴል ናሙና ውፅዓት	በመልሱ ትክክለኛነት (የሕግ ፍርድ) ላይ የተመሠረተ	0 (ስህተት) ወይም 1 (ትክክል)	ከመስመር ውጭ ፖሊሲ ማመቻቸት	ውጤታማ ስሌት, የደንብ ግብረመልስ ቀጥተኛ አጠቃቀም	ግልጽ ደንቦች ጋር የሂሳብ / ምክንያታዊ ተግባራት
ዲፒኦ	SFT የውሂብ ስብስብ ችግር + ሞዴል ውፅዓት ወደ	የሰዎች ምርጫ መለያ ወይም ደንብ ማወዳደር	በምርጫ ፕሮባቢሊቲ ስሌት ላይ የተመሰረተ (ለምሳሌ፡ ብራድሌይ-ቴሪ ሞዴል)	የንጽጽር ትምህርት	ምርጫዎችን በቀጥታ በማመቻቸት ግልጽ የሆነ የሽልማት ሞዴልን ያስወግዳል	የሰዎች ምርጫ አሰላለፍ ተግባራት (ለምሳሌ፣ የውይይት ማመንጨት)
የመስመር ላይ RFT	የእውነተኛ ጊዜ የፖሊሲ ሞዴል ናሙና ችግር-ውጤት ጥንዶች	በመልሱ ትክክለኛነት (የሕግ ፍርድ) ላይ የተመሠረተ	0 (ስህተት) ወይም 1 (ትክክል)	የመስመር ላይ ፖሊሲ ማመቻቸት	በቅጽበት ግብረ መልስ ማመቻቸት ፖሊሲዎችን በተለዋዋጭ ያዘምናል።	የመስመር ላይ መስተጋብር የሚያስፈልጋቸው ሁኔታዎች (ለምሳሌ፣ ጨዋታ AI)
ፒ.ፒ.ኦ	SFT የውሂብ ስብስብ ችግር + የፖሊሲ ሞዴል ናሙና ውፅዓት	የሽልማት ሞዴል (RM) የሰለጠነ	የበላይነት ተግባር (በሽልማት ግምት ላይ የተመሰረተ)	የፖሊሲ ቀስ በቀስ ዘዴ	ቀልጣፋ እና የተረጋጋ፣ ባለብዙ ደረጃ ማመቻቸትን ይደግፋል	ውስብስብ ተግባራት (ለምሳሌ የጽሑፍ ማመንጨት፣ የሮቦት ቁጥጥር)
GRPO	SFT የውሂብ ስብስብ ችግር + የፖሊሲ ሞዴል ናሙና ውፅዓት	የሽልማት ሞዴል (RM) የሰለጠነ	በቡድን ውስጥ አንጻራዊ ሽልማት (የተለመደ ንጽጽር)	የቡድን ፖሊሲ ማመቻቸት	የሽልማት ልዩነትን ይቀንሱ እና በቡድን ውስጥ ንፅፅርን ያሻሽሉ።	ከፍተኛ ልዩነት ያላቸው ተግባራት (ለምሳሌ ረጅም ጽሑፍ ማመንጨት)

በውሂብ ምንጮች ላይ ምልከታዎች

የመስመር ላይ ስልጠና ከመስመር ውጭ የመስመር ላይ ስልጠና የእውነተኛ ጊዜ የፖሊሲ ሞዴልን ውጤት እንደ የሥልጠና መረጃ መጠቀምን የሚያመለክት ሲሆን ከመስመር ውጭ ስልጠና ደግሞ የቋሚ ሞዴል ውጤትን (እንደ SFT ሞዴል) እንደ የሥልጠና መረጃ መጠቀምን ያመለክታል። የሙከራ ውጤቶች እንደሚያሳዩት የመስመር ላይ ስልጠና በአጠቃላይ ከመስመር ውጭ ስልጠና የተሻለ ነው።.

የውጤት ቁጥጥር እና የሂደት ቁጥጥር፡- የውጤት ቁጥጥር የሚያመለክተው የውጤቱን የመጨረሻ ደረጃ መሸለም ብቻ ነው፣ የሂደቱ ቁጥጥር ደግሞ እያንዳንዱን የማመዛዘን ሂደት ሽልማትን ያመለክታል። የሙከራ ውጤቶች እንደሚያሳዩት የሂደቱ ቁጥጥር ውስብስብ በሆኑ ተግባራት ውስጥ የበለጠ ውጤታማ ነው.

ነጠላ-ክፍል እና ተደጋጋሚ የማጠናከሪያ ትምህርት፡- ነጠላ የትዕይንት ማጠናከሪያ ትምህርት አንድን የስልት ማመቻቸትን የሚያመለክት ሲሆን ተደጋጋሚ የማጠናከሪያ ትምህርት ደግሞ ከበርካታ የስትራቴጂ ማሻሻያዎች በኋላ የሽልማት ሞዴል ቀጣይነት ያለው ማዘመንን ያመለክታል። የሙከራ ውጤቶች እንደሚያሳዩት ተደጋጋሚ የማጠናከሪያ ትምህርት በተለይም በመጀመሪያው ድግግሞሽ ውስጥ አፈፃፀምን በእጅጉ ያሻሽላል.

የግራዲየንት ቅንጅቶች ምልከታ

ደንብ ላይ የተመሰረተ እና ሞዴል ላይ የተመሰረተ፡- ደንብ የሚያመለክተው በመልሱ ትክክለኛነት ላይ በመመስረት ሽልማቱን ለመወሰን ነው፣ እና ሞዴል ደግሞ ውጤት ለማምጣት የሽልማት ሞዴል ማሰልጠንን ያመለክታል።

የግራዲየንት ጥምርታዎች ልዩነት፡- በ GRPO እና መካከል ያለው ቁልፍ ልዩነት የመስመር ላይ RFT GRPO በሽልማት ሞዴል በተሰጡት የሽልማት ዋጋዎች ላይ በመመስረት የግራዲየንት ውህደቶቹን የሚያስተካክል ሲሆን የመስመር ላይ RFT ግን አያደርገውም።

የ GRPO ጥቅሞች ሙከራዎች ያሳያሉ GRPO ከኦንላይን RFT የላቀ ነው፣ ይህም የግራዲየንት ቅንጅቶችን ምልክት የመቀየር ውጤታማነትን ያሳያል። GRPO+PS ከጂአርፒኦ+ኦኤስ የላቀ ነው፣ይህም በደቃቅ የተመረተ፣ ደረጃ የሚያውቁ የግራዲየንት ጥምርታዎችን የመጠቀም ጥቅሞችን ያሳያል።.

የ RL ውጤታማነት እና የማሻሻያ አቅጣጫዎች

RL ለምን ውጤታማ ነው?

የሙከራ ውጤቶች፡- RL የMaj@K አፈጻጸምን ያሻሽላል ግን Pass@K አይደለም።

ማብራሪያ፡- RL የውጤት ስርጭቱን የበለጠ ጠንካራ በማድረግ የአምሳያው አጠቃላይ አፈጻጸምን ያሻሽላል ማለትም የአምሳያው መሰረታዊ ችሎታን ከማጎልበት ይልቅ በTopK ውስጥ ትክክለኛ መልሶችን የማግኘት እድልን ያሻሽላል።

የበለጠ ውጤታማ RL እንዴት ማግኘት ይቻላል?

በተዋሃደ ዘይቤ ላይ በመመስረት ደራሲዎቹ RLን ለማሻሻል የወደፊት አቅጣጫዎችን በሶስት ገፅታዎች ያቀርባሉ፡ የውሂብ ምንጮች፣ አልጎሪዝም እና የሽልማት ተግባራት።

የውሂብ ምንጮች፡-
- ከ SFT ደረጃ በላይ ጉዳዮችን ያስሱ።
- እንደ ዛፍ መፈለጊያ ዘዴዎች ያሉ ይበልጥ የላቁ የናሙና (የመግለጫ) ስልቶችን ይጠቀሙ።
- የፖሊሲውን ሞዴል የማሰስ ቅልጥፍናን ለማሻሻል ቀልጣፋ የፍተሻ ዘዴዎችን ይጠቀሙ።
አልጎሪዝም፡-
- የማጠናከሪያ ትምህርት ስልተ ቀመሮችን የበለጠ ጠንካራ ለጫጫታ የሽልማት ምልክቶችን ያስሱ።
- ከደካማ-ወደ-ጠንካራ አይነት የአሰላለፍ ዘዴዎችን አጥኑ።
የሽልማት ተግባር፡-
- ከስርጭት ውጪ ችግሮችን እና የላቁ ዲኮድ የተደረጉ ውጤቶችን ለመቆጣጠር የሽልማት ሞዴል አጠቃላይ ችሎታን ያሳድጉ።
- የሽልማት ሞዴል እርግጠኛ አለመሆንን ያንፀባርቁ እና ደካማ የሽልማት ሞዴሎችን እና ከደካማ-ወደ-ጠንካራ የመማሪያ ስልተ ቀመሮችን ለማገናኘት እንደ ድልድይ ይጠቀሙ።
- ለግንዛቤ ሂደት ጥሩ ጥራት ያለው የሥልጠና ምልክቶችን ለማቅረብ ከፍተኛ ጥራት ያላቸውን የሂደት ሽልማት ሞዴሎችን በብቃት ይገንቡ።

ማጠቃለያ

DeepSeekMath መጠነ ሰፊ የሂሳብ ኮርፐስ በመገንባት እና አዲስ የማጠናከሪያ ትምህርት ስልተቀመር ሃሳብ በማቅረብ የክፍት ምንጭ ቋንቋ ሞዴሎችን በሂሳብ አመክንዮ ላይ ያላቸውን ችሎታ በእጅጉ አሻሽሏል። የዚህ ወረቀት ዋና ዋናዎቹ ናቸው

የ DeepSeekMath Corpus ግንባታ እና ማረጋገጫ ፣ ትልቅ ፣ ከፍተኛ ጥራት ያለው ፣ ባለብዙ ቋንቋ የሂሳብ ኮርፐስ።
ቀልጣፋ የማጠናከሪያ ትምህርት ስልተ-ቀመር፣ GRPO፣ የማስታወስ አጠቃቀምን ለመቀነስ የአምሳያው የሂሳብ የማመዛዘን ችሎታን በማሻሻል ላይ ቀርቧል።
የኮድ ስልጠና በሂሳብ የማመዛዘን ችሎታ ላይ ያለው ተጽእኖ በጥልቀት ተብራርቷል, እና የ arXiv መረጃ የተወሰነ ውጤት እንዳለው ተገኝቷል. የDeepSeekMath ዋጋ፡-
የክፍት ምንጭ ማህበረሰቡን በኃይለኛ የሂሳብ ማመዛዘን ሞዴል ያቀርባል እና የሂሳብ AI እድገትን ያበረታታል።
የሂሳብ ኮርፖሬሽን ለመገንባት እና የሂሳብ ማመዛዘን ሞዴሎችን ለማሰልጠን ጠቃሚ ልምድ እና ዘዴዎችን ይሰጣል።
የታቀደው የ GRPO ስልተ ቀመር በሌሎች መስኮች የማጠናከሪያ ትምህርት ስልጠና አዳዲስ ሀሳቦችን ይሰጣል።

ከ DeepSeek 1 ጀርባ ያለው ሚስጥር | DeepSeekMath እና GRPO ዝርዝሮች