1 ዳራ

በፀደይ ፌስቲቫል ወቅት, DeepSeek R1 በድጋሚ ሰፊ ትኩረትን ስቧል፣ እና ከዚህ ቀደም የጻፍነው የDeepSeek V3 ትርጓሜ ጽሁፍም እንዲሁ በድጋሚ ተላልፎ ብዙ ውይይት ተደርጎበታል።

ምንም እንኳን የ DeepSeek R1 ብዙ ትንታኔዎች እና ማባዛቶች ቢኖሩም, እዚህ አንዳንድ ተዛማጅ የንባብ ማስታወሻዎችን ለማዘጋጀት ወስነናል.

የDeepSeek-R1 ተከታታዮችን ምንነት በማጣራት ስለ ንድፍ ሃሳቦቹ የበለጠ ግንዛቤን ለመስጠት የሞዴል ግንባታን እና ቁልፍ ቴክኒካዊ ነጥቦችን ለማሳየት ሶስት ዋና ስዕላዊ መግለጫዎችን እንጠቀማለን።

ተጓዳኝ ወረቀት ነው [2501.12948] DeepSeek-R1: በማጠናከሪያ ትምህርት በኤል.ኤል.ኤም.ዎች የማመዛዘን ችሎታን ማበረታታት

እና ተጓዳኝ ክፍት ምንጭ ሞዴል ነው DeepSeek-R1

2 መግቢያ

2.1 የጋራ ምክንያታዊ ስልተ ቀመሮች

ከታች በስእል 2 ላይ እንደሚታየው ደራሲው አራቱን የተለመዱ የማመዛዘን ስልተ ቀመሮችን ያብራራል። ምንም እንኳን እነሱ በተወሰኑ ዝርዝሮች ቢለያዩም ፣ ሁሉም ሁለት ዋና ተግባራትን ያካትታሉ።

  • ማስፋፊያ፡ የመፍትሄውን መንገድ ለማስፋት ቶከኖችን ያመነጫል።
  • ድምር፡- የመጨረሻውን መልስ ለማግኘት የእያንዳንዱን መንገድ ውጤቶች ያጣምሩ። በማስፋፊያ ደረጃ ላይ ያለውን የሂሳብ ሃብቶች መጨመር ብዙውን ጊዜ የመልሱን ጥራት በማዋሃድ ደረጃ ማሻሻል ይችላል።

ራስን መቻል (አ.ማ) በስእል 2a ላይ እንደሚታየው የ SC ዋና ሀሳብ ብዙ የተለያዩ ውጤቶችን ማመንጨት ነው (ይህም የናሙና መለኪያዎችን በመቀየር ሊደረስበት ይችላል) እና ከዚያም መልሱን ከፍተኛውን የአሸናፊነት መጠን ለመምረጥ ለሁሉም መልሶች ድምጽ ይስጡ። ቁልፍ መለኪያው የእጩ መልሶች ቁጥር ነው n.

Rebase Algorithm፡ ከዚህ በታች በስእል 2 ለ እንደሚታየው፣ Rebase ደግሞ ብዙ ውጤቶችን ያመነጫል፣ ግን በብዙ ደረጃዎች ነው የሚመነጩት። እያንዳንዱ እርምጃ የሽልማት ሞዴልን በመጠቀም ይመሰረታል፣ እና ከፍተኛ ነጥብ ያለው ውጤት ማመንጨትን ለመቀጠል ጥቅም ላይ ይውላል። በመጨረሻም, በርካታ ቅርንጫፎች ያሉት የማመዛዘን ዛፍ ይፈጠራል. ከፍተኛ ነጥብ ያለው (ምርጥ-ኦፍ-N) ያለው መልስ በድምር ደረጃ ላይ ተመርጧል።

የሞንቴ ካርሎ ዛፍ ፍለጋ (ኤም.ሲ.ቲ.ኤስ.)፡ ከታች በስእል 2 ሐ እንደሚታየው፣ MCTS ኃይለኛ የማመራመር ስልተ-ቀመር ሲሆን ቀስ በቀስ ናሙና በመውሰድ አንጓዎችን የሚያሰፋ እና የእጩ መፍትሄ የያዘ የቅጠል መስቀለኛ መንገድ እስኪያገኝ ድረስ የመፍትሄ ዛፍ ይገነባል። እያንዳንዱ መፍትሄ በሽልማት ሞዴል ወይም ሲሙሌሽን ይመሰረታል፣ እና ውጤቱም የሽልማት እሴቶቻቸውን ለማዘመን ወደ ቅድመ አያቶቹ አንጓዎች ይተላለፋል፣ በዚህም ድግግሞሹን ያጠናቅቃል። የቁልፍ መለኪያው ደግሞ n ነው፣ እና n መጨመር ሊሆኑ የሚችሉ መፍትሄዎችን በጥልቀት እና በስፋት ለመመርመር ያስችላል።

ውስጣዊ የግንዛቤ ሰንሰለት (ICOT). ከታች በስእል 2 መ እንደሚታየው እንደ OpenAI o1 እና Qwen-QWQ ያሉ የቅርብ ጊዜዎቹ LLMs በስልጠና ወቅት የማመዛዘን ባህሪን ያለግልጽ የማመዛዘን ስልተ-ቀመር ሳያስፈልግ ወደ ውስጥ እንዲገቡ ማድረግ ይችላሉ። ዋናው ሃሳቡ የCoT ቅደም ተከተል ማመንጨት፣ የተወሳሰቡ ችግሮችን ወደ ብዙ ንኡስ ችግሮች መበስበስ እና በመቀጠልም ውሎ አድሮ መፍትሄ ላይ ለመድረስ በቀደሙት ውጤቶች ላይ በማንፀባረቅ እነዚህን መልሶች ደጋግሞ ማሻሻል ነው።

2.2 የማመዛዘን ዘዴዎች

2.2.1 ምርጥ-ኦፍ-N ዘዴ አጠቃላይ እይታ

ባጭሩ፣ Best-of-N በኤል ኤል ኤም ኢንፈረንስ ውስጥ በስፋት ጥቅም ላይ የዋለ የአሰላለፍ ዘዴ ሲሆን ይህም በርካታ እጩ ምላሾችን በማመንጨት እና ምርጡን በመምረጥ የተገኙ ውጤቶችን ከፍተኛ ጥራት ለማረጋገጥ ያለመ ነው። ሶስት ዋና ዋና ሂደቶችን ያቀፈ ነው-

  1. የማመንጨት ሂደት፡ ለተወሰነ ጊዜ X፣ ምርጥ-ኦፍ ዘዴ የ N IID ምላሾችን (Y₁፣ Y₂፣…፣ Yₙ) ይፈጥራል፣ N ብዙ ጊዜ “የባች መጠን” ተብሎ ይጠራል።
  2. የውጤት አሰጣጥ ዘዴ፡ እያንዳንዱ የመነጨ ምላሽ ተጓዳኝ ነጥብ {s(Y₁)፣ s(Y₂)፣ …፣ s(Yₙ)} ለማግኘት በሽልማት ሞዴል ተመዝግቧል።
  3. ምርጡን ምላሽ መምረጥ፡ በመጨረሻም፣ ከሁሉም ከሚመነጩ ምላሾች መካከል ከፍተኛ ነጥብ ያለው ምላሽ እንደ ውፅዓት ተመርጧል፣ ማለትም፣ Y_Best-of-N = argmax {s(Y₁)፣ s(Y₂)፣ …፣ s(Yₙ)}።

የዚህ ዘዴ ጥቅሞች የሚከተሉት ናቸው-

  1. አስቀድሞ የሰለጠኑ ወይም በመመሪያው የተስተካከሉ የቋንቋ ሞዴሎችን ለማሰማራት ቀላል በማድረግ ውስብስብ የማስተካከል እርምጃዎችን በውጤታማነት ማስወገድ ይችላል።
  2. ለመተግበር ቀላል፣ ለመረዳት ቀላል እና በመሠረቱ ከሃይፐርፓራሜትሮች የጸዳ ነው፡ ዋናው ሃይፐርፓራሜትር N ሲሆን ይህም በመረጃ ወቅት በተለዋዋጭ ሊስተካከል ይችላል።
  3. ከትውልድ ጥራት አንፃር በጣም ተወዳዳሪ ነው እና እንደ RLHF ወይም DPO ያሉ አንዳንድ ውስብስብ የድህረ-ስልጠና ቴክኒኮችን እንኳን ሊወዳደር ይችላል። ጥናቶች እንደሚያሳዩት የምርጥ-ኦፍ-ኤን ዘዴ በሽልማት እና በKL ልዩነት መካከል ባለው የንግድ-ውጭ ኩርባ ላይ ጥሩ አፈጻጸም እንዳለው፣ ሌላው ቀርቶ ውስብስብ የአሰላለፍ ስልቶችን እንኳን የላቀ ነው።

የዚህ ዘዴ ጉዳቶች ናቸው

  1. ድምዳሜው የ N ቅደም ተከተሎችን ማመንጨትን ይጠይቃል, ይህም ወደ ከፍተኛ ስሌት ሊመራ ይችላል. በተግባር የ N ምክንያታዊ ዋጋ ከ 4 እስከ 128 ይደርሳል, ነገር ግን በጣም የላቁ የድህረ-ስልጠና ዘዴዎችን ለመወዳደር, ከፍተኛ N እሴቶች ሊያስፈልጉ ይችላሉ, ለምሳሌ ከ 1000 እስከ 60000, ይህም ተቀባይነት የሌለው የሂሳብ ወጪን ሊያስከትል ይችላል.

እጅግ በጣም ጥሩው ዘዴ ብዙውን ጊዜ ለቀጣይ ክትትል የሚደረግለት ጥሩ ማስተካከያ ከፍተኛ ጥራት ያላቸውን የውሂብ ስብስቦች ለማመንጨት ጥቅም ላይ ይውላል እና በLLMA-2 እና LLama-3 አሰላለፍ ሂደት ውስጥ ቁልፍ ሚና ተጫውቷል።

2.2.2 OpenAI best-of-N ዘዴ

ኦፕንኤአይ መጀመሪያ በምርጥ-ኦቭ-ኤን ናሙና አቅርቧል [2009.01325] ከሰው አስተያየት ማጠቃለል መማር . በተለይም ከበርካታ ሞዴሎች የተገኘውን ምርጥ ማጠቃለያ በመምረጥ የማጠቃለያውን ሞዴል አፈጻጸም ለመገምገም እና ለማመቻቸት ይጠቅማል። ይህ ዘዴ ተመራማሪዎች በተለያዩ የግምገማ መለኪያዎች እና በሰዎች ገምጋሚ ምርጫዎች መካከል ያለውን ግንኙነት በተሻለ ሁኔታ እንዲረዱ ያግዛቸዋል፣ እና ሞዴል ስልጠና እና ማመቻቸትን ለመምራት ይጠቅማል።

OpenAI በተጨማሪም በክትትል ውስጥ የምርጥ ናሙና (የመቀበል ናሙና) ይጠቀማል [2112.09332] WebGPT፡ በአሳሽ የታገዘ ጥያቄ-መልስ በሰው አስተያየት. በተለይም ቋሚ ቁጥር ያላቸው መልሶች (4፣ 16 ወይም 64) ከBC ሞዴል ወይም አርኤል ሞዴል የተወሰዱ ናቸው፣ እና ከፍተኛ የሽልማት ሞዴል ነጥብ ያለው ለተቃዋሚ ሽልማት ሞዴል እንደ ማሻሻያ ዘዴ ተመርጧል። ይህ ዘዴ ተጨማሪ ስልጠና አይፈልግም, ነገር ግን ለመድረስ የግንዛቤ ደረጃውን ስሌት ውስብስብነት ይጨምራል.

2.2.3 Google BOND ዘዴ

ውስጥ [2407.14622] ማስያዣ፡ LLMsን ከምርጥ-ኦቭ-ኤን ዲስቲልሽን ጋር ማመጣጠን፣ የGoogle ደራሲያን Best-of-N Distillation (BOND) ሀሳብ አቅርበዋል።፣ በ Inference ጊዜ የስሌት ክፍያን በከፍተኛ ሁኔታ ሳይጨምር በስርጭት ማዛመጃ ስልተ-ቀመር አማካኝነት ምርጡን የናሙና ዘዴን ለማስመሰል የተነደፈ አዲስ የRLHF ስልተ-ቀመር።

በተለይም፣ ደራሲው በመጀመሪያ የምርጥ-ኦፍ-N ናሙናን ትክክለኛ የትንታኔ ስርጭት ወሰደ እና የምርጥ-ኦፍ-N ናሙናን ዕድል ተግባር ይሰጣል፡-

በሁለተኛ ደረጃ, ደራሲዎቹ ችግሩን እንደ የስርጭት ማዛመጃ ችግር ይገልጻሉ;

ከዚያ በኋላ፣ ደራሲዎቹ የጄፍሬይስ ልዩነትን እንደ የስርጭት ማዛመጃ ዓላማ እንዲጠቀሙ ሐሳብ አቅርበዋል፡-

በመጨረሻም N ን የመምረጥ ችግርን ለመፍታት ደራሲዎቹ የ "Best-of-N" ስርጭትን በተደጋጋሚ በማጣራት የስትራቴጂውን አፈፃፀም የሚያሻሽል የ "BOND" ዘዴን ያቀርባሉ. ልዩ ደረጃዎች የሚከተሉትን ያካትታሉ:

ረዳት መልህቅ ስትራቴጂ π(መልሕቅ) አስጀምር።

ምርጡን π(መልሕቅ) ለማጣራት እና ከእያንዳንዱ እርምጃ በኋላ π(መልሕቅን) ለማዘመን BOND ን ደጋግመው ያስፈጽሙ።

2.3 የሂደት ቁጥጥር እና የውጤት ቁጥጥር

ውጤት እና ሂደት የሽልማት ሞዴል ግምገማን ሁለት ገጽታዎች ያመለክታሉ፡-

  • የውጤት ሽልማት ሞዴል፡ የአምሳያው ውጤት የመጨረሻው ውጤት ትክክል መሆኑን ወይም እንደተጠበቀው ይገምግሙ።
  • የሂደት የሽልማት ሞዴል፡- የአምሳያው የማመዛዘን እና የውሳኔ አሰጣጥ እርምጃዎች ውጤትን በማመንጨት ሂደት ምክንያታዊ እና ውጤታማ መሆናቸውን ይገመግማል።

ለምሳሌ፣ OpenAI's Let's Verify ደረጃ በደረጃ | OpenAI በተጨማሪም ይጠቅሳል፡-

  • የሂደት ክትትል (በውጤት ቁጥጥር የሚደረግበት)፡ በእያንዳንዱ የአምሳያው የማመዛዘን ሂደት ላይ ግብረመልስ መስጠትን ያካትታል። በሂደት የሚቆጣጠሩ የሽልማት ሞዴሎች (PRM) የእያንዳንዱን የመፍትሄ እርምጃ ትክክለኛነት ለመተንበይ የሰለጠኑ ናቸው።
  • በውጤት ቁጥጥር የሚደረግበት፡ በውጤት ቁጥጥር የሚደረግበት በአምሳያው ምክንያት የመጨረሻ ውጤት ላይ ብቻ የተመሰረተ ግብረመልስ ይሰጣል። በውጤት ቁጥጥር የሚደረግባቸው የሽልማት ሞዴሎች (ORM) የሰለጠኑት የመፍትሄውን የመጨረሻ መልስ በመጠቀም ነው፣ እና ትክክለኛነት በራስ ሰር በማጣራት ይወሰናል።

2.4 የሽልማት መጥለፍ

በ RL ውስጥ፣ የሽልማት ጠለፋ የሚያመለክተው ወኪሉ የሽልማት ተግባሩን ንድፍ ጉድለት በመጠቀም የንድፍ ዲዛይኑን የመጀመሪያ ሀሳብ በማያሟላ መልኩ ድምር ሽልማቱን ከፍ ለማድረግ ነው። ምንም እንኳን ይህ ባህሪ በቴክኒካል የሽልማት ተግባሩን የማሻሻያ ግብ የሚያሟላ ቢሆንም፣ ትክክለኛው ውጤት ከሚጠበቀው የተግባር ግብ የተለየ እና አልፎ ተርፎም አሉታዊ ውጤቶችን ሊያስከትል ይችላል።

ቁልፍ ነጥብ ትንተና፡-

  1. ፍቺ እና መገለጫ፡-
    1. ተወካዩ በሽልማት ተግባር ላይ እንከን ያገኛል እና ችግሩን በትክክል ከመፍታት ይልቅ "አቋራጮችን" በመውሰድ ከፍተኛ ሽልማት ያገኛል።
    2. ለምሳሌ, የጽዳት ሮቦት ክፍሉን በትክክል ከማጽዳት ይልቅ ክፍሉን "እንዲመስል" ለማድረግ መብራቱን ያጠፋል; የጨዋታ ወኪል የደረጃ ጎል ሳያጠናቅቅ በተደጋጋሚ ነጥቦችን ያስመዘግባል። ለደህንነት አደጋ የሚዳርግ የብሬኪንግ ጊዜን ለመቀነስ ላለመቀነስ መምረጥ; ከፍተኛ ውጤቶችን ለማታለል ከቁልፍ ቃላት ጋር የሚዛመድ ትርጉም የለሽ ይዘት ማመንጨት።
  2. የስር መንስኤዎች:
    1. ያልተሟላ የሽልማት ተግባር ንድፍ፡ ከመጠን በላይ ማቅለል ወይም የጠርዝ ጉዳዮችን አለመሸፈን።
    2. በግቦች እና ሽልማቶች መካከል ያለው አለመመጣጠን፡ የሽልማት ተግባሩ እውነተኛውን ግብ ሙሉ በሙሉ ማንጸባረቅ ባለመቻሉ ወኪሉ ለ"የተሳሳተ" ግብ እንዲያመቻች ያደርጋል።
  3. መፍትሄዎች፡-
    1. የሽልማት ንድፍ አሻሽል፡ ባለብዙ ገጽታ ሽልማቶችን ያስተዋውቁ (ለምሳሌ ደህንነት፣ ቅልጥፍና፣ ወዘተ) ወይም በተለዋዋጭ የሽልማት ተግባሩን ያስተካክሉ።
    2. የተቃዋሚነት ማረጋገጫ፡ ወኪሉ ተጨማሪ ዘዴዎችን በመጠቀም “ማታለል” መሆኑን ይወቁ።
    3. የእጅ ጣልቃገብነት እና ገደቦች፡ የባህሪ ድንበሮችን ያዘጋጁ (ለምሳሌ የደህንነት ሽፋን) ወይም በእጅ ግብረ መልስ (ለምሳሌ RLHF)።
    4. የተገላቢጦሽ ማጠናከሪያ ትምህርት (IRL)፡- ከባለሙያዎች የበለጠ እውነተኛ የሽልማት ተግባር ይማሩ።
    5. ተዋረዳዊ የማጠናከሪያ ትምህርት፡ ስራውን ወደ ንዑሳን ግቦች መበስበስ የአካባቢን የማመቻቸት አደጋን ለመቀነስ።
  4. ከመጠን በላይ መገጣጠም ጋር መያያዝ;
    1. ሁለቱም በስልጠና መለኪያዎች እና በገሃዱ አለም አፈጻጸም መካከል ያለውን ግንኙነት አቋርጠው ያሳያሉ፣ ነገር ግን ሽልማት መጥለፍ በአምሳያው አጠቃላይ ችሎታ ላይ ሳይሆን ለሽልማት ተግባር ዲዛይን ጉድለቶች የበለጠ ትኩረት ይሰጣል።
  5. ማጠቃለያ፡-
    1. የሽልማት ጠለፋ በ RL ውስጥ የግብ አሰላለፍ ፈተናን ያሳያል። ይህንን ችግር ለመፍታት የበለጠ ጠንካራ የሽልማት ዘዴዎችን መንደፍ ፣ውጫዊ ገደቦችን ማስተዋወቅ እና የሰውን ቅድመ እውቀት ማካተት የተወካዩ ባህሪ ቀልጣፋ እና ከንድፍ ሀሳብ ጋር የተጣጣመ መሆኑን ማረጋገጥ ይጠይቃል።

3 DeepSeek-R1-ዜሮ & DeepSeek-R1

3.1 አጠቃላይ እይታ

የሞዴል አፈጻጸምን ለማሻሻል ከዚህ ቀደም የተደረገ ጥናት በአብዛኛው የተመካው ከፍተኛ መጠን ባለው ክትትል የሚደረግበት መረጃ ነው። ይህ ጥናት እንደሚያሳየው SFT እንደ ቀዝቃዛ ጅምር ባይኖርም, ትልቅ መጠን ያለው RL የአምሳያው የማመዛዘን ችሎታን በእጅጉ ሊያሳድግ ይችላል. በተጨማሪም አነስተኛ መጠን ያለው የቀዝቃዛ ጅምር መረጃን ማስተዋወቅ የበለጠ አፈጻጸምን ሊያሳድግ ይችላል. ከDeepSeek-R1 ጋር የሚዛመዱ ሞዴሎች የሚከተሉት ናቸው።

  1. DeepSeek-R1-ዜሮ፡ ይህ ሞዴል ምንም SFT ውሂብ ሳይኖር RL በቀጥታ ወደ Base ሞዴል ይተገበራል።
  2. DeepSeek-R1፡ ይህ ሞዴል በሺዎች ከሚቆጠሩ የ CoT ናሙናዎች ጋር በጥሩ ሁኔታ ከተስተካከለ የፍተሻ ነጥብ ጀምሮ RL ተፈጻሚ ይሆናል።
  3. DeepSeek-R1-Distill-xx፡ የDeepSeek-R1 የማመዛዘን ችሎታን ወደ ትንሽ ጥቅጥቅ ያለ ሞዴል ያሰራጫል።

3.2 DeepSeek-R1-ዜሮ

የሚከተለው ምስል በ DeepSeek-R1-ዜሮ ሞዴል ስልጠና ውስጥ ያሉትን ቁልፍ ነጥቦች ያሳያል።

PS: ወረቀቱ በ DeepSeek-R1-ዜሮ በ RL ሂደት ውስጥ ጥቅም ላይ የዋለው መረጃ ላይ ብዙ መረጃ እንደማይሰጥ ልብ ሊባል ይገባል. ነገር ግን፣ ምንም እንኳን የተለየ ባይሆንም በቀጣይ R1 ስልጠና ላይ ስለመረጃ ማመንጨት ሂደት እና መጠን የተወሰነ ማብራሪያ አለ።

3.2.1 RL አልጎሪዝም

የ RL የሥልጠና ወጪን ለመቀነስ፣ ደራሲዎቹ የDeepSeek የራሱን GRPO (የቡድን አንጻራዊ ፖሊሲ ማሻሻያ) ዘዴ፣ [2402.03300] DeepSeekMath፡ የሒሳብ ማመዛዘን ገደቦችን በክፍት ቋንቋ ሞዴሎች ይጠቀማሉ። ይህ ዘዴ ብዙውን ጊዜ ከፖሊሲው ሞዴል ጋር የሚነፃፀር የ Critic ሞዴልን ይተዋል ፣ እና በምትኩ የቡድን ነጥብ በመጠቀም የመነሻ መስመሩን ይገምታል። ተጓዳኝ ማብራሪያው ከታች ባለው ስእል ላይ ይታያል (ፎቶ ከTwitter)፡-

3.2.2 የሽልማት ሞዴል

ሽልማቶች የስልጠና ምልክቶች ምንጭ ናቸው እና የ RL ማመቻቸት አቅጣጫን ይወስናሉ. DeepSeek-R1-ዜሮን ለማሰልጠን ደራሲዎቹ ሁለት አይነት ሽልማቶችን ያካተተ ደንብን መሰረት ያደረገ የሽልማት ስርዓት ተጠቅመዋል፡

  • ትክክለኛ ሽልማት፡ ምላሹ ትክክል መሆኑን ገምግም። ለምሳሌ፡-
    • ከመወሰኛ ውጤቶች ጋር በሒሳብ ችግሮች ውስጥ፣ ሞዴሉ ትክክለኛነቱን በደንቦች በአስተማማኝ ሁኔታ ማረጋገጥ እንዲችል፣ ሞዴሉ የመጨረሻውን መልስ በተወሰነ ቅርጸት (ለምሳሌ በሳጥን ውስጥ) መስጠት አለበት።
    • በተመሳሳይ፣ ለLeetCode ችግሮች፣ አስቀድሞ በተገለጹ የፍተሻ ጉዳዮች ላይ በመመስረት አስተባባሪ በመጠቀም ግብረመልስ ሊፈጠር ይችላል።
  • የቅርጸት ሽልማት፡ ሞዴሉ የአስተሳሰብ ሂደቱን በ" መካከል እንዲያስቀምጥ ለማስገደድ የቅርጸት ሽልማት ስራ ላይ ይውላል። "እና" ” tags

በ DeepSeek-R1-ዜሮ ልማት ወቅት ደራሲው ውጤቱን የነርቭ ሽልማት ሞዴል ወይም የሂደቱን የነርቭ ሽልማት ሞዴል አልተጠቀመም ምክንያቱም ደራሲው የነርቭ ሽልማት ሞዴል በትላልቅ የ RL ሂደቶች ውስጥ የሽልማት ማጭበርበር (ሽልማት መጥለፍ) ሊያጋጥመው ይችላል ። በተጨማሪም የሽልማት ሞዴልን እንደገና ማሰልጠን ተጨማሪ የስልጠና ግብዓቶችን ብቻ ሳይሆን አጠቃላይ የስልጠና ሂደቱን ያወሳስበዋል.

3.2.3 የስልጠና አብነት

DeepSeek-R1-ዜሮን ለማሰልጠን ደራሲዎቹ በመጀመሪያ የተቀመጡትን መመሪያዎች ለመከተል የቤዝ ሞዴልን ለመምራት ቀላል አብነት ቀርፀዋል። ከታች በሰንጠረዥ 1 ላይ እንደሚታየው አብነቱ የማመዛዘን ሂደትን ለመፍጠር DeepSeek-R1-ዜሮ ያስፈልገዋል ከዚያም የመጨረሻውን መልስ ይሰጣል።

ደራሲው ማንኛውንም የይዘት አድልኦን ላለማስተዋወቅ ሆን ብሎ ገደቦችን በዚህ መዋቅራዊ ማዕቀፍ ላይ ወስኗል - ለምሳሌ አንጸባራቂ ምክንያቶችን ማስገደድ ወይም ልዩ የችግር አፈታት ስልቶችን ማስተዋወቅ - የአምሳያው ተፈጥሯዊ ዝግመተ ለውጥ በ RL ሂደት ውስጥ በትክክል መከበሩን ለማረጋገጥ።

3.2.4 መደምደሚያ

ጠንካራ የማመዛዘን ችሎታዎች ያለ SFT መረጃ፡ RL ን በቀጥታ ከባዝ ሞዴል በመጀመር፣ የአምሳያው የዝግመተ ለውጥ አቅጣጫ ያለ SFT ጣልቃ ገብነት በቅርበት ክትትል ሊደረግበት ይችላል። ከታች ያለው ምስል 3 እንደሚያሳየው፣ የDeepSeek-R1-ዜሮ የማሰብ ጊዜ መሻሻልን ቀጥሏል (የእድገት ርዝመቱ ቀስ በቀስ እየረዘመ) በስልጠናው ሂደት ውስጥ። ይህ መሻሻል የመጣው ከውጫዊ ማስተካከያዎች አይደለም, ነገር ግን የአምሳያው ውስጣዊ እድገት ተፈጥሯዊ ውጤት ነው. DeepSeek-R1-ዜሮ የተራዘመ የፈተና ጊዜ ስሌቶችን በመጠቀም እንደ የማንፀባረቅ ችሎታ ያሉ ከጊዜ ወደ ጊዜ እየጨመረ የሚሄደውን የማሰብ ስራዎችን የመፍታት ችሎታን አግኝቷል።

DeepSeek-R1-ዜሮ በስልጠና ወቅት “አሃ አፍታ” አጋጥሞታል። ከታች በሰንጠረዥ 3 ላይ እንደሚታየው ይህ አፍታ የተከሰተው በአምሳያው መካከለኛ ስሪት ደረጃ ላይ ነው። በዚህ ደረጃ፣ DeepSeek-R1-ዜሮ የመጀመሪያ አቀራረቡን በመገምገም ለችግሮች የበለጠ የማሰብ ጊዜ መመደብን ተምሯል።

አብላጫ ድምጽ፡ DeepSeek-R1-ዜሮ አፈጻጸምን አብላጫ ድምጽን በመተግበር የበለጠ ሊሻሻል ይችላል። ለምሳሌ ከታች በሰንጠረዥ 2 ላይ እንደሚታየው አብላጫ ድምፅ በ AIME ቤንችማርክ ፈተና ላይ ከዋለ በኋላ አፈፃፀሙ ከ71.0% ወደ 86.7% በመዝለል ከOpenAI-o1-0912 በልጧል።

ድክመቶች፡ DeepSeek-R1-ዜሮ ጠንካራ የማመዛዘን ችሎታዎችን ቢያሳይ እና በራስ ገዝ ያልተጠበቁ እና ኃይለኛ የማመዛዘን ባህሪያትን ሲያዳብር፣ አሁንም እንደ ደካማ ተነባቢነት እና የቋንቋ መደባለቅ ያሉ ተግዳሮቶችን ገጥሞታል።

3.3 DeepSeek-R1

የማመዛዘን ሂደቱን የበለጠ ተነባቢ ለማድረግ እና ከተከፈተው ማህበረሰብ ጋር ለመጋራት፣ ደራሲዎቹ የDeepSeek-R1 ዘዴን የበለጠ ይዳስሳሉ፣ ይህም ለሰው ተስማሚ የሆነ የቀዝቃዛ ጅምር መረጃን ለRL ይጠቀማል። በDeepSeek-R1-ዜሮ ተመስጦ፣ ሁለት የተፈጥሮ ጥያቄዎች ይከተላሉ፡-

  1. የማመዛዘን አፈፃፀም የበለጠ ሊሻሻል ይችላል ወይንስ አነስተኛ መጠን ያለው ከፍተኛ ጥራት ያለው መረጃ እንደ ቀዝቃዛ ጅምር በማስተዋወቅ የመገናኘት ሂደቱን ማፋጠን ይቻላል?
  2. ግልጽ እና ወጥ የሆነ CoTs የሚያመነጭ ብቻ ሳይሆን ጠንካራ የአጠቃላይ ችሎታዎችን የሚያሳይ ለተጠቃሚ ምቹ የሆነ ሞዴል እንዴት ማሰልጠን እንችላለን?

ለእነዚህ ጥያቄዎች ምላሽ, ለ DeepSeek-R1 የስልጠና ሂደት ነድፈናል. ከዚህ በታች እንደተገለፀው ሂደቱ ብዙ ደረጃዎችን ያቀፈ ነው-

ደረጃ-1፣ ከታች ባለው ምስል ላይ እንደሚታየው፣ የDeepSeek-R1ን መካከለኛ ሁኔታ በSFT + RL ያሠለጥናል፡

የሚከተለው ምስል ደረጃዎች-2፣ 3 እና 4 ያሳያል።

  • ደረጃ-2፡ በላይኛው ግራ፣ 200ሺህ የማመዛዘን መረጃ እና 600 ኪ ማመራመር ዳታ ይገንቡ።
  • ደረጃ-3፡ የላይኛው ቀኝ፣ SFT + RL ባቡር DeepSeek-R1።
  • ደረጃ-4፡ የታችኛው ምስል፣ Distill DeepSeek-R1-Distill-xx።

3.3.1 ቀዝቃዛ ጅምር (ደረጃ-1)

እንደ DeepSeek-R1-ዜሮ ሳይሆን፣የቤዝ ሞዴልን ያልተረጋጋውን የቀዝቃዛ ጅምር ምዕራፍ በ RL ስልጠና መጀመሪያ ላይ ለመከላከል ደራሲዎቹ ለDeepSeek-R1 ሞዴሉን እንደ መጀመሪያው አርኤል ተዋናኝ ለማስተካከል አነስተኛ መጠን ያለው Long CoT ዳታ ገንብተው ሰበሰቡ። ይህንን መረጃ ለመሰብሰብ ደራሲዎቹ የተለያዩ ዘዴዎችን መርምረዋል-

  • ከ Long CoT ምሳሌዎች ጋር ጥቂት-ተኩስ ጥያቄዎችን በመጠቀም
  • ሞዴሉን በቀጥታ በማንፀባረቅ እና በማረጋገጥ ዝርዝር መልሶችን እንዲያመነጭ ማድረግ
  • DeepSeek-R1-ዜሮ ውፅዓት በሰው ሊነበብ በሚችል ቅርጸት መሰብሰብ
  • ውጤቱን በድህረ-ሂደት በማጣራት በእጅ መለያ

ደራሲዎቹ DeepSeek-V3-Baseን እንደ RL መነሻነት ለማስተካከል በጥቅሉ በሺዎች የሚቆጠሩ የCold Start መረጃዎችን ሰብስበው ነበር። ከDeepSeek-R1-ዜሮ ጋር ሲነጻጸር፣የቀዝቃዛ ጅምር መረጃ ጥቅሞች ያካትታሉ

  • ተነባቢነት፡ DeepSeek-R1-ዜሮ ምላሾች በብዙ ቋንቋዎች ሊደባለቁ ይችላሉ ወይም የተጠቃሚ መልሶችን ለማድመቅ ጥቅም ላይ የሚውለው የማርክታውን ቅርጸት ይጎድላል። በአንጻሩ፣ ለDeepSeek-R1 የCold Start ዳታ ሲፈጥር፣ ደራሲው ሊነበብ የሚችል ቅርጸት ቀርጾ በእያንዳንዱ ምላሽ መጨረሻ ላይ ማጠቃለያን ያካተተ እና ያልተነበቡ ምላሾችን ያጣራል። እዚህ፣ የውጤቱ ፎርማት |special_token| ተብሎ ይገለጻል። |ልዩ_ቶከን| የማመዛዘን_ሂደቱ በሰንሰለት የታሰረው የጥያቄው አስተሳሰብ ሲሆን እና ማጠቃለያ የማመዛዘን ውጤቶቹን ለማጠቃለል ይጠቅማል።
  • እምቅ፡ በጥንቃቄ የሰው-a priori የቀዝቃዛ ጅምር ውሂብ ቅጦችን በመንደፍ፣ አፈፃፀሙ ከDeepSeek-R1-ዜሮ የላቀ መሆኑን ደራሲዎቹ አስተውለዋል።

3.3.2 በምክንያታዊነት የሚመራ RL (ደረጃ-1)

በቅዝቃዛ ጅምር መረጃ ላይ DeepSeek-V3-Base ከተስተካከለ በኋላ፣ ልክ እንደ DeepSeek-R1-ዜሮ ያለው የ RL የሥልጠና ሂደት ጥቅም ላይ ይውላል። ይህ ደረጃ በማመራመር ላይ ያሉ ተግባራትን በተለይም በፕሮግራም ፣ በሂሳብ ፣ በሳይንስ እና በሎጂክ አመክንዮ ችግሮች ላይ የአምሳያው ችሎታን ለማሻሻል ያለመ ግልጽ መፍትሄዎች።

በስልጠና ወቅት፣ ደራሲዎቹ CoT ብዙውን ጊዜ በቋንቋ መቀላቀል ይሠቃይ እንደነበር አስተውለዋል፣ በተለይም የ RL ጥያቄ ብዙ ቋንቋዎችን ሲያካትት። የቋንቋ መቀላቀልን ችግር ለማቃለል ደራሲዎቹ የቋንቋ ወጥነት ሽልማትን ወደ RL ስልጠና አስተዋውቀዋል፣ ይህም በ CoT ውስጥ በዒላማ ቋንቋ ውስጥ ባሉ የቃላት መጠን ላይ በመመስረት ይሰላል። ምንም እንኳን የማስወገጃ ሙከራዎች እንደሚያሳዩት ይህ የአሰላለፍ ዘዴ የአምሳያው አፈጻጸም ትንሽ እንዲቀንስ እንደሚያደርግ፣ ይህ የሽልማት ዘዴ ከሰው ምርጫዎች ጋር የሚጣጣም እና ተነባቢነትን የሚያጎለብት ነው። በመጨረሻም፣ ደራሲዎቹ በቀጥታ የማመራመር ተግባርን ትክክለኛነት በቋንቋ ወጥነት ሽልማት ላይ በማከል የመጨረሻውን ሽልማት ለመመስረት እና የ RL ስልጠናን በጥሩ የተስተካከለ ሞዴል ላይ ተግባራዊ በማድረግ በማመራመር ተግባር ላይ እስኪገናኝ ድረስ።

3.3.3 የ 800,000 የተመረጡ መረጃዎች ግንባታ (ደረጃ-2)

RL for Reasoning በሚሰበሰብበት ጊዜ፣ የSFT መረጃ የሚሰበሰበው ለቀጣዩ የሥልጠና ዙር የተገኘውን የፍተሻ ነጥብ በመጠቀም ነው። ከመጀመሪያው የቀዝቃዛ ጅምር መረጃ በተለየ፣ በዋናነት በማመራመር ላይ ያተኮረ፣ ይህ ደረጃ የአምሳያውን የፅሁፍ፣ የሚና-ተጫዋች እና ሌሎች አጠቃላይ-ዓላማ ተግባራትን ችሎታ ለማሳደግ ከሌሎች ጎራዎች የተገኙ መረጃዎችን ያካትታል። በተለይም ውሂቡ የተፈጠረ ሲሆን ሞዴሉ በሚከተለው መልኩ ተስተካክሏል፡

  • የማመዛዘን መረጃ፡ የማመዛዘን ጥያቄዎች ተመርጠዋል እና የማመዛዘን አቅጣጫዎች የሚመነጩት ከላይ ከተጠቀሰው RL የሰለጠነ የፍተሻ ነጥብ (DeepSeek-R1 ደረጃ 1) ውድቅ የተደረገ ናሙና በማከናወን ነው። በቀደመው ደረጃ፣ ህግን መሰረት ያደረጉ ሽልማቶችን በመጠቀም ሊገመገም የሚችል ውሂብ ብቻ ተካቷል። ነገር ግን፣ በዚህ ደረጃ፣ የመረጃ ቋቱ የተስፋፋው ብዙ መረጃዎችን በማካተት ነው፣ አንዳንዶቹ የተፈጠሩት የሽልማት ሞዴልን በመጠቀም ነው፣ እና ትክክለኛው መልሶች የተገመቱት የሞዴሉን ትንበያዎች ወደ DeepSeek-V3 (DeepSeek V3 እንደ ዳኛ) በመመገብ ነው። በተጨማሪም፣ የአምሳያው ውጤት አንዳንድ ጊዜ ግራ የሚያጋባ እና ለማንበብ አስቸጋሪ ስለሆነ፣ የተቀላቀሉ ቋንቋዎች የአስተሳሰብ ሰንሰለቶች፣ ረጅም አንቀጾች እና የኮድ ብሎኮች ተጣርተዋል። ለእያንዳንዱ ጥያቄ፣ በርካታ ምላሾች ናሙና ወስደዋል እና ትክክለኛዎቹ ብቻ (ምርጥ-ኦፍ-N) ተጠብቀዋል። በአጠቃላይ 600,000 የሚያህሉ ከምክንያታዊነት ጋር የተያያዙ የስልጠና ናሙናዎች ተሰብስበዋል።
  • የማመዛዘን መረጃ፡ እንደ መጻፍ፣ የፋክቶይድ ጥያቄዎች፣ ራስን ማወቅ እና ትርጉም የDeepSeek-V3 ሂደት ተጠቅመው አንዳንድ የDeepSeek-V3 SFT ዳታሴቶችን እንደገና ተጠቅመዋል። ለአንዳንድ የማመዛዘን ስራዎች፣ DeepSeek-V3 ለጥያቄው መልስ ከመስጠቱ በፊት እምቅ ኮቲዎችን ለመፍጠር ተጠርቷል። ሆኖም፣ እንደ “ሄሎ” ላሉ ቀላል ጥያቄዎች፣ በመልሱ ውስጥ ምንም የአስተሳሰብ ሰንሰለት አልቀረበም። በመጨረሻም በአጠቃላይ ወደ 200,000 የሚጠጉ የማመዛዘን ችሎታ የሌላቸው የስልጠና ናሙናዎች ተሰብስበዋል።

3.3.4 SFT እና RL ለሁሉም ሁኔታዎች (ደረጃ-3)

ሁለት ዙር ጥሩ ማስተካከያ በድምሩ 800,000 የሚጠጉ የተመረጡ ናሙናዎች በDeepSeek-V3-Base ላይ ሁለቱ ከላይ የተገለጹትን የመረጃ ስብስቦችን (ምክንያታዊ እና ማመዛዘን) በመጠቀም ተካሂደዋል።

ሞዴሉን ከሰዎች ምርጫዎች ጋር የበለጠ ለማጣጣም ደራሲዎቹ የአምሳያው ጥቅም እና ጉዳት የማያስከትል የማመዛዘን አቅሞችን በማጣራት የ RL ሁለተኛ ደረጃን ተግባራዊ አድርገዋል። በተለይም ሞዴሉ የሽልማት ምልክቶችን እና የተለያዩ ፈጣን ስርጭቶችን በማጣመር የሰለጠነ ነው።

  • የማመዛዘን መረጃን ለማግኘት በDeepSeek-R1-ዜሮ የተገለፀው ዘዴ በመተዳደሪያ ደንብ ላይ የተመሰረተ የሽልማት ዘዴን በመጠቀም የአምሳያው ትምህርት በሂሳብ፣ በፕሮግራም አወጣጥ እና በሎጂክ አመክንዮዎች ዙሪያ ነው።
  • ለአጠቃላይ መረጃ፣ የሽልማት ሞዴል ውስብስብ እና ስውር በሆኑ ሁኔታዎች ውስጥ የሰውን ምርጫ ለመያዝ ይጠቅማል። በDeepSeek-V3 ሂደት ላይ በመመስረት ተመሳሳይ የምርጫ ጥንዶች እና የስልጠና ፈጣን ስርጭት ስትራቴጂ ጥቅም ላይ ይውላል።
  • ከጠቃሚነት አንፃር፣ የመጨረሻው ማጠቃለያ ብቻ ነው የሚታሰበው፣ ይህም ግምገማው ለተጠቃሚው የሚሰጠው ምላሽ ተግባራዊነት እና አግባብነት ላይ የሚያተኩር ሲሆን በመሠረታዊ የማመዛዘን ሂደት ውስጥ ጣልቃ መግባትን ይቀንሳል።
  • ጉዳት ስለሌለው፣ የአምሳያው አጠቃላይ ምላሽ፣ የማመዛዘን ሂደቱን እና ማጠቃለያን ጨምሮ፣ በማመንጨት ሂደት ውስጥ ሊከሰቱ የሚችሉ አደጋዎችን፣ አድሎአዊ ጉዳዮችን ወይም ጎጂ ይዘቶችን ለመለየት እና ለማስወገድ በሰፊው ይገመገማል።
  • በመጨረሻም፣ የሽልማት ምልክቶችን በማዋሃድ እና የመረጃ ስርጭትን በማባዛት ለሁለቱም ጥቅም እና ጉዳት ቅድሚያ የሚሰጥ ሞዴል በReasoning ውስጥ የላቀ ስልጠና መስጠት ይቻላል።

3.3.5 መበታተን (ደረጃ-4)

በDeepSeek-R1 የማመዛዘን ችሎታ የበለጠ ቀልጣፋ አነስተኛ ሞዴልን ለማስታጠቅ ደራሲዎቹ በDeepSeek-R1-Stage-1 በተመረጡት 800,000 ናሙናዎች በመጠቀም ክፍት ምንጭ ሞዴሎችን Qwen እና LLMAን በቀጥታ አስተካክለዋል። ውጤቶቹ እንደሚያሳዩት ይህ ቀጥተኛ የማጣራት ዘዴ የአነስተኛ ሞዴሎችን የማመዛዘን ችሎታ በእጅጉ ያሻሽላል. በደራሲዎቹ ጥቅም ላይ የዋሉት መሰረታዊ ሞዴሎች Qwen2.5-Math-1.5B፣Qwen2.5-Math-7B፣Qwen2.5-14B፣Qwen2.5-32B፣ላማ-3.1-8B እና ላማ-3.3-70B-ትምህርትን ያካትታሉ። ላማ-3.3 የተመረጠው የማመዛዘን ችሎታው ከላማ-3.1 በመጠኑ የተሻለ ስለሆነ ነው።

ለዲፕላስቲክ ሞዴል, ደራሲው SFT ብቻ ይጠቀማል እና የ RL ደረጃን አያካትትም. ምንም እንኳን የ RL መግቢያ የአምሳያው አፈጻጸምን በእጅጉ ሊያሻሽል ቢችልም, የጸሐፊው ዋና ዓላማ እዚህ ላይ የዲቲልቴሽን ቴክኖሎጂን ውጤታማነት ለማሳየት ነው, እና የ RL ደረጃን መመርመር ለቀጣይ ምርምር ይቀራል.

PS: በተጨማሪም, ከላይ ያለውን ውሂብ ለማመንጨት እና 800,000 ውሂብ distillation ጥቅም ላይ እንደገና ለመገንባት የመጨረሻው DeepSeek-R1 በእርግጥ ይቻላል, እና distilled ሞዴል የተሻለ ውጤት ሊኖረው ይችላል; ነገር ግን ዋጋው ውሂቡን እንደገና መገንባት ያስፈልገዋል.

ተመሳሳይ ልጥፎች

ምላሽ ይስጡ

ኢ-ፖስታ አድራሻወ ይፋ አይደረግም። መሞላት ያለባቸው መስኮች * ምልክት አላቸው