ዛሬ እንካፈላለን DeepSeek R1ርዕስ፡ DeepSeek-R1፡ የማመዛዘን ችሎታን በኤል.ኤል.ኤም በማጠናከሪያ ትምህርት ማበረታታት፡ የኤልኤልኤም የማመዛዘን ችሎታን በማጠናከሪያ ትምህርት ማበረታታት።
ይህ ወረቀት የDeepSeek የመጀመሪያ ትውልድ የማመዛዘን ሞዴሎችን ያስተዋውቃል፣ DeepSeek-R1-ዜሮ እና DeepSeek-R1. የDeepSeek-R1-ዜሮ ሞዴል የሰለጠነው በ በኩል ነው። መጠነ ሰፊ የማጠናከሪያ ትምህርት (RL) ያለ ክትትል የሚደረግበት ጥሩ ማስተካከያ (SFT) እንደ መጀመሪያ ደረጃ፣ የ RL አቅም እና የላቀ የማመዛዘን ችሎታዎችን ያሳያል። ያመጣል። በማጠናከሪያ ትምህርት ፣ DeepSeek-R1-ዜሮ በተፈጥሮ ብዙ ኃይለኛ እና አስደሳች የማመዛዘን ባህሪያትን ይዞ ብቅ ብሏል።. አንዳንድ ጉዳዮችን በR1-ዜሮ (የቋንቋ ግራ መጋባት፣ የተሻሻለ የአጠቃላይ ችሎታ) የበለጠ ለማመቻቸት ተለቀቁ። DeepSeek-R1፣ ከማጠናከሪያ ትምህርት በፊት ባለብዙ-ደረጃ ስልጠና እና የቀዝቃዛ ጅምር መረጃን ማስተካከልን ያጣምራል። DeepSeek-R1 ተመጣጣኝ አፈጻጸም አግኝቷል በ OpenAI-01-1217 የማመዛዘን ተግባር ላይ. የምርምር ማህበረሰብን ለመደገፍ, አላቸው ክፍት ምንጭ DeepSeek-R1-ዜሮ፣ DeepSeek-R1፣ እና ስድስት ጥቅጥቅ ያሉ ሞዴሎች (1.5B፣ 7B፣ 8B፣ 14B፣ 32B፣ 70B) ከDeepSeek-R1 የተበተኑ፣ እነዚህም በQwen እና Llama ላይ የተመሰረቱ ናቸው።.
የአሠራሩ ባህሪያት እንደሚከተለው ተጠቃለዋል.
- የማጠናከሪያ ትምህርት በቀጥታ በመሠረታዊ ሞዴል ላይ ይተገበራል ፣ እንደ መጀመሪያ ደረጃ ቁጥጥር የሚደረግበት ጥሩ ማስተካከያ (SFT) ላይ ሳይታመን።
- የ DeepSeek-R1 የእድገት ሂደት ገብቷል, ይህም ለአምሳያው የማመዛዘን እና የማመዛዘን ችሎታዎች መሠረት ለመጣል ሁለት የማጠናከሪያ ትምህርት ደረጃዎችን እና ሁለት ክትትል የሚደረግባቸው ጥሩ ማስተካከያ ደረጃዎችን ያጣምራል።.
- የትልልቅ ሞዴሎችን የማመዛዘን ንድፎችን ወደ ትናንሽ ሞዴሎች በማስተላለፍ የአነስተኛ ሞዴሎችን የማመዛዘን ስራዎች አፈፃፀም ይሻሻላል. የ distillation ዘዴዎች.
አጠቃላይ እይታ
- ርዕስ፡- DeepSeek-R1፡ በማጠናከሪያ ትምህርት በኤልኤልኤምዎች የማመዛዘን ችሎታን ማበረታታት
- ደራሲዎች፡- DeepSeek-AI
- Github፡ deepseek R1
ተነሳሽነት
- አሁን ያሉ ትልልቅ የቋንቋ ሞዴሎች (LLMs) በማገናዘብ ተግባራት ላይ ጉልህ መሻሻል አሳይተዋል፣ ነገር ግን አሁንም ተግዳሮቶች ያጋጥሟቸዋል።
- የንጹህ አቅም የማጠናከሪያ ትምህርት (RL) የኤልኤልኤምኤስ የማመዛዘን ችሎታን ለማሻሻል ሙሉ በሙሉ አልተመረመረም።በተለይም ክትትል የሚደረግበት ውሂብ ላይ ሳይመሰረቱ።
- በ RL በኩል የሰለጠኑ ሞዴሎች፣ ለምሳሌ DeepSeek-R1-ዜሮ፣ የንባብ እና የቋንቋ መደባለቅ ችግር አለባቸው (ለምሳሌ፣ ቻይንኛ እና እንግሊዘኛ ቋንቋ ድብልቅ) እና የተጠቃሚ ወዳጃዊነትን ለማሻሻል ተጨማሪ መሻሻል ያስፈልጋቸዋል።.
ዘዴዎች

DeepSeek-R1-ዜሮ፡ DeepSeek-V3-Baseን እንደ መሰረታዊ ሞዴል ይጠቀማል GRPO (የቡድን አንጻራዊ ፖሊሲ ማሻሻያ) እንደ ማጠናከሪያ ትምህርት ማዕቀፍ፣ በአምሳያው ውስጥ የአምሳያው አፈጻጸምን ለማሻሻል ክትትል የሚደረግበት ውሂብ ሳይኖር.
DeepSeek-R1፡
- ቀዝቃዛ ጅምር; አነስተኛ መጠን ያለው ከፍተኛ ጥራት ያለው ረጅም CoT (የሐሳብ ሰንሰለት) መረጃን ይሰበስባል እና ያስተካክላል DeepSeek-V3-ቤዝ ሞዴል እንደ ማጠናከሪያ ትምህርት የመጀመሪያ ተዋናይ።
- ምክንያትን ያማከለ የማጠናከሪያ ትምህርት፡- ተመሳሳይ የማጠናከሪያ ትምህርት የሥልጠና ሂደት እንደ DeepSeek-R1-ዜሮ ተተግብሯል ፣ ግን የአምሳያው የማመዛዘን ችሎታዎችን በማሳደግ ላይ በማተኮር እንደ ኮድ፣ ሂሳብ፣ ሳይንስ እና አመክንዮአዊ አስተሳሰብ ባሉ ዘርፎች። የቋንቋ ወጥነት ሽልማቶች በ CoT ውስጥ የሚከሰተውን የቋንቋ መቀላቀልን ችግር ለመቅረፍ ይተዋወቃሉ።
- ውድቅ የተደረገ ናሙና እና ክትትል የሚደረግበት ጥሩ ማስተካከያ፡ ለማጠናከሪያ ትምህርት የተጠናከረ የፍተሻ ነጥብ ይጠቀማል ክትትል የሚደረግበት ጥሩ ማስተካከያ (ኤስኤፍቲ) መረጃን ሰብስብ ለቀጣይ ስልጠና.
- የማጠናከሪያ ትምህርት ለሁሉም ሁኔታዎች፡ የሁለተኛ ደረጃ የማጠናከሪያ ትምህርት ደረጃን ተግባራዊ ያደርጋል፣ ይህም ለማሻሻል ያለመ ነው። የማመዛዘን ችሎታውን በማሳደግ የአምሳያው አጋዥነት እና ጉዳት አልባነት።
- የእውቀት መበታተን; በDeepSeek-R1 የተሰበሰቡ 800k ናሙናዎችን በመጠቀም የክዌን እና ላማን የክፍት ምንጭ ሞዴሎችን በደንብ ያስተካክላል።
ዝርዝር ዘዴዎች እና ሂደቶች;

DeepSeek-R1-ዜሮ፡ ማጠናከሪያ ትምህርት ለመሠረታዊ ሞዴሎች
- የማጠናከሪያ ትምህርት ስልተ ቀመር፡ የቡድን አንጻራዊ ፖሊሲ ማሻሻያ (GRPO) ስልተ ቀመር ይጠቀማል አያስፈልግም ሀ ተቺ ሞዴል፣ መነሻውን በቡድን ውጤቶች ይገምታል፣ እና የስልጠና ወጪን ይቀንሳል.
- የሽልማት ሞዴሊንግ፡- ይጠቀማል ሀ ደንብ ላይ የተመሠረተ የሽልማት ሥርዓትጨምሮ

- ትክክለኛነት ሽልማት; እንደ የመጨረሻው ውጤት ትክክለኛነት መልሱ ትክክል መሆኑን ይገመግማል የሂሳብ ችግር መልስ ፣ ለኮድ ችግሮች ከአቀናባሪው የተሰጠው አስተያየት.
- የቅርጸት ሽልማት፡ ሞዴሉን ያበረታታል። መካከል ያለውን የአስተሳሰብ ሂደት አስቀምጥ
እና
tags.
የሥልጠና አብነት፡- አብነት የያዘ እና
መለያዎች የተነደፉት ለ ሞዴሉን በመጀመሪያ የአስተሳሰብ ሂደቱን እንዲያወጣ እና ከዚያም የመጨረሻውን መልስ እንዲሰጥ ይምሩ.

- ራስን የዝግመተ ለውጥ ሂደት; DeepSeek-R1-ዜሮ አሳይቷል። በስልጠና ወቅት ራስን የዝግመተ ለውጥ ባህሪያት፣ እና በራስ ገዝ የበለጠ ውስብስብ የማመዛዘን ስልቶችን መማር ችሏል፣ እንደ ብዙ ችግር ፈቺ መንገዶችን ማሰላሰል እና ማሰስ።.

DeepSeek-R1፡ የማጠናከሪያ ትምህርት ከቀዝቃዛ ጅምር ጋር ተደምሮ

- ቀዝቃዛ ጅምር; DeepSeek-R1-ዜሮን ለመፍታት የማንበብ ችግር, DeepSeek-R1 በመጀመሪያ ትንሽ መጠን ይሰበስባል ከፍተኛ ጥራት ያለው የ CoT ውሂብ እና የDeepSeek-V3-Base ሞዴሉን በጥሩ ሁኔታ ያስተካክላል ለማጠናከሪያ ትምህርት እንደ የመጀመሪያ ተዋናይ ሆነው ያገለግላሉ. የቀዝቃዛው ጅምር ውሂብ ማጠቃለያ መለያዎችን እና ተስማሚ ያልሆኑ ምላሾችን ይዟል ተጣርተዋል.
- ዘዴ: 1) ከፍተኛ ጥራት ያለው ረጅም COT ውሂብ ይምረጡ. 2) ያክሉ እና መለያ ያድርጉ።
- ጥቅሞቹ፡ 1) የተመቻቸ ተነባቢነት (የ R1-ዜሮ የብዝሃ ቋንቋ ችግር ወይም የማርክ ማድረጊያ ቅርጸት ችግርን መፍታት)። 2) በጥንቃቄ የተመረጠ በሰው የተመረጠ መረጃ በR1-ዜሮ ላይ አፈጻጸምን ማሻሻል መቀጠል ይችላል።
- ጥያቄ፡ የመነበብ ችግርን ለምን ይፈታል? ሳይፈታ (ለምሳሌ የውጤቱን ርዝመት በመቀነስ እና በብቃት ግምት ውስጥ በማስገባት) የተሻለ መስራት አይቻልምን?
- በምክንያት ላይ ያተኮረ አር.ኤል. በቀዝቃዛው ጅምር ሞዴል ላይ በመመስረት ፣ ተመሳሳይ የማጠናከሪያ ትምህርት ሂደት DeepSeek-R1-ዜሮ የተተገበረው እንደ ኮድ፣ ሂሳብ፣ ሳይንሳዊ እና አመክንዮአዊ አመክንዮ ባሉ ተግባራት የአምሳያው ችሎታን በማሻሻል ላይ በማተኮር ነው።. የተቀላቀሉ ቋንቋዎችን ችግር ለመፍታት (ባለብዙ ቋንቋ አመክንዮ), የቋንቋ ወጥነት ሽልማቶች ይተዋወቃሉ።
- ጥያቄ፡ ሳይንሳዊ እና አመክንዮአዊ የማመዛዘን ተግባራት እና የውሂብ ስብስቦች እንዴት የሰለጠኑ ናቸው?
- ውድቅ የተደረገ ናሙና እና SFT፡ በመረጃ የተመራ የማጠናከሪያ ትምህርት ከተሰበሰበ በኋላ የተገኘው የፍተሻ ነጥብ ጥቅም ላይ ይውላል አዲስ የኤስኤፍቲ መረጃን ለማመንጨት ውድቅ የተደረገ ናሙና፣ ይህም ከDeepSeek-V3 ካለው መረጃ ጋር ተጣምሮ የአምሳያውን በጽሁፍ፣ በተጫዋችነት እና በአጠቃላይ ተግባራት ውስጥ ያለውን አቅም ለማሳደግ።
- ዓላማ፡-
- ይህ ደረጃ የሚጀምረው ከሂደቱ በኋላ ነው። በፍላጎት ላይ ያተኮረ የማጠናከሪያ ትምህርት (RL) ሂደት ይሰበሰባል.
- ዋናው ዓላማው ነው ክትትል የሚደረግበት ጥሩ ማስተካከያ (ኤስኤፍቲ) መረጃን መሰብሰብ ለቀጣይ የስልጠና ዙሮች ጥቅም ላይ ይውላል.
- በመረጃ ላይ ብቻ ከሚያተኩረው ከመጀመሪያው የቀዝቃዛ ጅምር ውሂብ በተለየ ይህ ደረጃ ዓላማ ያለው ነው። የአምሳያው ችሎታዎችን ያስፋፉ ማጠቃለያ ብቻ ሳይሆን መጻፍ፣ ሚና-መጫወት እና ሌሎች አጠቃላይ ዓላማ ሥራዎችን ለመሸፈን።
- የውሂብ መሰብሰብ - የማጣቀሻ ውሂብ;
- ዘዴ፡- በናሙና ውድቅነት የማጣቀሻ አቅጣጫዎችን ለማመንጨት ከፍላጎት-ተኮር RL ደረጃ የተገኙ የፍተሻ ነጥቦችን ይጠቀሙ።
- የውሂብ ስብስብ መስፋፋት; ህግን መሰረት ያደረገ የሽልማት ውሂብ ብቻ ከተጠቀመው ከቀዳሚው የRL ደረጃ በተለየ፣ ህግን መሰረት ያላደረገ የሽልማት ውሂብ እዚህ ገብቷል። በአንዳንድ አጋጣሚዎች ምላሹን ለመወሰን የጄኔሬቲቭ ሽልማት ሞዴል (DeepSeek-V3) ጥቅም ላይ ይውላል.
- የውሂብ ማጣሪያ፡ ጥራትን እና ተነባቢነትን ለማረጋገጥ ውጽዓቱ እንዲወገድ ይጣራል፡-
- የተቀላቀሉ ቋንቋዎችን የያዙ የአስተሳሰብ ሰንሰለቶች
- ረጅም አንቀጾች
- ኮድ ብሎኮች
- ናሙና እና ምርጫ; ለእያንዳንዱ ጥያቄ፣ በርካታ ምላሾች ተፈጥረዋል። ለውሂብ ስብስብ "ትክክለኛ" ምላሽ ብቻ ነው የቀረው።
- የውሂብ ስብስብ መጠን፡- በግምት 600,000 ከግንዛቤ ጋር የተያያዙ የስልጠና ናሙናዎች በዚህ መንገድ ተሰብስበዋል.
- የመረጃ አሰባሰብ - የማያስገባ ውሂብ;
- ሽፋን፡ መፃፍ፣ ትክክለኛ የጥያቄ መልስ (QA)፣ ራስን ማወቅ እና ትርጉም።
- ወረቀቱ አጠቃቀምን ይጠቅሳል የDeepSeek-V3 ሂደት እና የDeepSeek-V3 SFT የውሂብ ስብስብ አካልን እንደገና ይጠቀማል። እነዚህን አላስፈላጊ ስራዎችን ለማስተናገድ. ስለ 200,000 ከፍላጎት ነፃ የሆኑ ናሙናዎች ተሰብስበው ነበር. (ማስታወሻ፡- የመረጃ አሰባሰብ ዝርዝሮች በክፍል 2.3.4 የበለጠ ተገልጸዋል)
- የተሰበሰበ ውሂብ አጠቃቀም;
- የተሰበሰበው የማመዛዘን እና ምክንያታዊ ያልሆነ መረጃ (በአጠቃላይ ወደ 800,000 ናሙናዎች - 600,000 የማመዛዘን ናሙናዎች + 200,000 ምክንያታዊ ያልሆኑ ናሙናዎች) የDeepSeek-V3-Base ሞዴልን ለሁለት ዘመናት ማስተካከል. ይህ በጥሩ ሁኔታ የተስተካከለ ሞዴል በክፍል 2.3.4 በተገለጸው በመጨረሻው የ RL ደረጃ ላይ ጥቅም ላይ ውሏል።
- ማጠቃለያ ይህ ደረጃ የማመዛዘን ችሎታዎችን ይጠቀማል የተለያየ እና ከፍተኛ ጥራት ያለው የኤስኤፍቲ መረጃ ስብስብ ለማመንጨት በ RL በኩል ተምሯል። ይህ የውሂብ ስብስብ የማመዛዘን ችሎታዎችን ያጠናክራል እንዲሁም አጠቃላይ ችሎታዎችን ያሰፋዋል በመጨረሻው አሰላለፍ እና ማሻሻያ ደረጃ ላይ የስልጠና ሞዴል.
- ዓላማ፡-
- የማጠናከሪያ ትምህርት ለሁሉም ሁኔታዎች፡ የሰዎችን ምርጫዎች የበለጠ ለማጣጣም የአምሳያው አጋዥነት እና ጉዳት አልባነት ለማሻሻል ሁለተኛ ደረጃ የማጠናከሪያ ትምህርት ተተግብሯል።
- የማጣቀሻ መረጃ፡- ለምሳሌ ሂሳብ፣ ኮድ፣ ሎጂካዊ መረጃ ወይም በደንብ መሰረት ዘዴዎች ቁጥጥር የሚደረግበት።
- አጠቃላይ መረጃ፡ የሽልማት ሞዴሎች አሁንም ለተወሳሰቡ እና ስውር ሁኔታዎች የምርጫ መረጃን ለማቅረብ ያገለግላሉ። በተጣመረ መረጃ የሰለጠኑ ሞዴሎችም ይገመታሉ።
- ጠቃሚነት: በመጨረሻው የማጠቃለያ ውጤቶች ላይ ብቻ ያተኩሩ, በማጣቀሻው ሂደት ላይ ጣልቃ መግባትን ይቀንሱ.
- ጉዳት-አልባነት፡ ማንኛውንም አደጋዎችን ለመቀነስ ምላሹን በሙሉ ይቆጣጠሩ።
የሞዴል ማስወጫ (Distillation):
- ይበልጥ ቀልጣፋ የሆነ አነስተኛ የኢንፈረንስ ሞዴል ለማግኘት ወረቀቱ የ DeepSeek-R1ን ወደ ክዌን እና ላማ ተከታታይ የክፍት ምንጭ ሞዴሎች ያሰራጫል። የማጣራት ሂደት ክትትል የሚደረግበት ጥሩ ማስተካከያ (ኤስኤፍቲ) ብቻ ነው የሚጠቀመው እና የማጠናከሪያ ትምህርት ደረጃን አይጠቀምም.
ማጠቃለያ
DeepSeek-R1-ዜሮአቅምን ያሳያል የኤል.ኤም.ኤልን የማመዛዘን ችሎታን ለማነሳሳት ንጹህ የማጠናከሪያ ትምህርት ፣ እና ጠንካራ አፈፃፀምን ሊያመጣ ይችላል። ክትትል የሚደረግበት ውሂብ ላይ ሳይታመን.


- አሃ-አፍታ፡ የማጠናከሪያ ትምህርት ውበት (የአምሳያው የእውቀት ጊዜ ፣ የት ነው። እንደገና መገምገምን በመማር ለችግሩ ተጨማሪ የማሰብ ጊዜ ይመድባል የመጀመሪያ አቀራረብ)
- የውጤቱ ርዝመት መጨመሩን ይቀጥላል (የማሰብ ጊዜ እየጨመረ ይሄዳል)
- ትክክለኝነት መሻሻል ይቀጥላል (ትክክለኝነትን ለማስላት 16 ምላሾች ናሙና)

- DeepSeek-R1የቀዝቃዛ ጅምር መረጃን እና ተደጋጋሚ ማጠናከሪያ ትምህርት ጥሩ ማስተካከያን በማጣመር የሞዴል አፈጻጸምን የበለጠ ያሻሽላል። በተለያዩ ተግባራት ላይ ከOpenAI-01-1217 ጋር የሚወዳደር ደረጃ ላይ መድረስ.

- የእውቀት መበታተን: DeepSeek-R1ን እንደ አስተማሪ ሞዴል በመጠቀም 800K የሥልጠና ናሙናዎች ተፈጥረዋል እና ብዙ ትናንሽ እና ጥቅጥቅ ያሉ ሞዴሎች በጥሩ ሁኔታ ተስተካክለዋል። ውጤቶቹ ይህን ያሳያሉ የ distillation ዘዴ ጉልህ የመረዳት ችሎታ ማሻሻል ይችላሉ ትናንሽ ሞዴሎች.
ገደብ
- ገደብ 1፡ የDeepSeek-R1 አጠቃላይ አቅም መሻሻል አለበት። DeepSeek-R1 አሁንም ከDeepSeek-V3 በታች ነው እንደ የተግባር ጥሪዎች፣ ባለብዙ ዙር ውይይት፣ ውስብስብ ሚና መጫወት እና የJSON ውፅዓት።
- ገደብ 2፡ የቋንቋ መቀላቀል ችግር። DeepSeek-R1 ቻይንኛ ያልሆኑ እና እንግሊዘኛ ያልሆኑ ጥያቄዎችን ሲያስተናግድ የቋንቋ መቀላቀል ችግር ሊያጋጥመው ይችላል ለምሳሌ በእንግሊዘኛ ማመዛዘን እና ምላሽ ሲሰጥ።
- ገደብ 3፡ ፈጣን ስሜታዊነት። DeepSeek-R1 ለፈጣን ቃላቶች ስሜታዊ ነው፣ እና ጥቂት-ተኩስ መጠየቂያ አፈፃፀሙን ይቀንሳል።
- ገደብ 4፡ ለሶፍትዌር ምህንድስና ተግባራት የተገደበ መተግበሪያ። በረዥሙ የግምገማ ጊዜ ምክንያት፣ መጠነ ሰፊ የማጠናከሪያ ትምህርት በሶፍትዌር ምህንድስና ተግባራት ላይ ሙሉ በሙሉ አልተተገበረም እና DeepSeek-R1 በሶፍትዌር ምህንድስና መለኪያዎች ላይ ከDeepSeek-V3 የተወሰነ ማሻሻያ አድርጓል።