ዛሬ እንካፈላለን DeepSeek R1ርዕስ፡ DeepSeek-R1፡ የማመዛዘን ችሎታን በኤል.ኤል.ኤም በማጠናከሪያ ትምህርት ማበረታታት፡ የኤልኤልኤም የማመዛዘን ችሎታን በማጠናከሪያ ትምህርት ማበረታታት።

ይህ ወረቀት የDeepSeek የመጀመሪያ ትውልድ የማመዛዘን ሞዴሎችን ያስተዋውቃል፣ DeepSeek-R1-ዜሮ እና DeepSeek-R1. የDeepSeek-R1-ዜሮ ሞዴል የሰለጠነው በ በኩል ነው። መጠነ ሰፊ የማጠናከሪያ ትምህርት (RL) ያለ ክትትል የሚደረግበት ጥሩ ማስተካከያ (SFT) እንደ መጀመሪያ ደረጃ፣ የ RL አቅም እና የላቀ የማመዛዘን ችሎታዎችን ያሳያል። ያመጣል። በማጠናከሪያ ትምህርት ፣ DeepSeek-R1-ዜሮ በተፈጥሮ ብዙ ኃይለኛ እና አስደሳች የማመዛዘን ባህሪያትን ይዞ ብቅ ብሏል።. አንዳንድ ጉዳዮችን በR1-ዜሮ (የቋንቋ ግራ መጋባት፣ የተሻሻለ የአጠቃላይ ችሎታ) የበለጠ ለማመቻቸት ተለቀቁ። DeepSeek-R1፣ ከማጠናከሪያ ትምህርት በፊት ባለብዙ-ደረጃ ስልጠና እና የቀዝቃዛ ጅምር መረጃን ማስተካከልን ያጣምራል። DeepSeek-R1 ተመጣጣኝ አፈጻጸም አግኝቷል በ OpenAI-01-1217 የማመዛዘን ተግባር ላይ. የምርምር ማህበረሰብን ለመደገፍ, አላቸው ክፍት ምንጭ DeepSeek-R1-ዜሮ፣ DeepSeek-R1፣ እና ስድስት ጥቅጥቅ ያሉ ሞዴሎች (1.5B፣ 7B፣ 8B፣ 14B፣ 32B፣ 70B) ከDeepSeek-R1 የተበተኑ፣ እነዚህም በQwen እና Llama ላይ የተመሰረቱ ናቸው።.

የአሠራሩ ባህሪያት እንደሚከተለው ተጠቃለዋል.

  1. የማጠናከሪያ ትምህርት በቀጥታ በመሠረታዊ ሞዴል ላይ ይተገበራል ፣ እንደ መጀመሪያ ደረጃ ቁጥጥር የሚደረግበት ጥሩ ማስተካከያ (SFT) ላይ ሳይታመን።
  2. የ DeepSeek-R1 የእድገት ሂደት ገብቷል, ይህም ለአምሳያው የማመዛዘን እና የማመዛዘን ችሎታዎች መሠረት ለመጣል ሁለት የማጠናከሪያ ትምህርት ደረጃዎችን እና ሁለት ክትትል የሚደረግባቸው ጥሩ ማስተካከያ ደረጃዎችን ያጣምራል።.
  3. የትልልቅ ሞዴሎችን የማመዛዘን ንድፎችን ወደ ትናንሽ ሞዴሎች በማስተላለፍ የአነስተኛ ሞዴሎችን የማመዛዘን ስራዎች አፈፃፀም ይሻሻላል. የ distillation ዘዴዎች.

አጠቃላይ እይታ

ተነሳሽነት

  • አሁን ያሉ ትልልቅ የቋንቋ ሞዴሎች (LLMs) በማገናዘብ ተግባራት ላይ ጉልህ መሻሻል አሳይተዋል፣ ነገር ግን አሁንም ተግዳሮቶች ያጋጥሟቸዋል።
  • የንጹህ አቅም የማጠናከሪያ ትምህርት (RL) የኤልኤልኤምኤስ የማመዛዘን ችሎታን ለማሻሻል ሙሉ በሙሉ አልተመረመረም።በተለይም ክትትል የሚደረግበት ውሂብ ላይ ሳይመሰረቱ።
  • በ RL በኩል የሰለጠኑ ሞዴሎች፣ ለምሳሌ DeepSeek-R1-ዜሮ፣ የንባብ እና የቋንቋ መደባለቅ ችግር አለባቸው (ለምሳሌ፣ ቻይንኛ እና እንግሊዘኛ ቋንቋ ድብልቅ) እና የተጠቃሚ ወዳጃዊነትን ለማሻሻል ተጨማሪ መሻሻል ያስፈልጋቸዋል።.

ዘዴዎች

DeepSeek-R1-ዜሮ፡ DeepSeek-V3-Baseን እንደ መሰረታዊ ሞዴል ይጠቀማል GRPO (የቡድን አንጻራዊ ፖሊሲ ማሻሻያ) እንደ ማጠናከሪያ ትምህርት ማዕቀፍ፣ በአምሳያው ውስጥ የአምሳያው አፈጻጸምን ለማሻሻል ክትትል የሚደረግበት ውሂብ ሳይኖር.

DeepSeek-R1፡

  • ቀዝቃዛ ጅምር; አነስተኛ መጠን ያለው ከፍተኛ ጥራት ያለው ረጅም CoT (የሐሳብ ሰንሰለት) መረጃን ይሰበስባል እና ያስተካክላል DeepSeek-V3-ቤዝ ሞዴል እንደ ማጠናከሪያ ትምህርት የመጀመሪያ ተዋናይ።
  • ምክንያትን ያማከለ የማጠናከሪያ ትምህርት፡- ተመሳሳይ የማጠናከሪያ ትምህርት የሥልጠና ሂደት እንደ DeepSeek-R1-ዜሮ ተተግብሯል ፣ ግን የአምሳያው የማመዛዘን ችሎታዎችን በማሳደግ ላይ በማተኮር እንደ ኮድ፣ ሂሳብ፣ ሳይንስ እና አመክንዮአዊ አስተሳሰብ ባሉ ዘርፎች። የቋንቋ ወጥነት ሽልማቶች በ CoT ውስጥ የሚከሰተውን የቋንቋ መቀላቀልን ችግር ለመቅረፍ ይተዋወቃሉ።
  • ውድቅ የተደረገ ናሙና እና ክትትል የሚደረግበት ጥሩ ማስተካከያ፡ ለማጠናከሪያ ትምህርት የተጠናከረ የፍተሻ ነጥብ ይጠቀማል ክትትል የሚደረግበት ጥሩ ማስተካከያ (ኤስኤፍቲ) መረጃን ሰብስብ ለቀጣይ ስልጠና.
  • የማጠናከሪያ ትምህርት ለሁሉም ሁኔታዎች፡ የሁለተኛ ደረጃ የማጠናከሪያ ትምህርት ደረጃን ተግባራዊ ያደርጋል፣ ይህም ለማሻሻል ያለመ ነው። የማመዛዘን ችሎታውን በማሳደግ የአምሳያው አጋዥነት እና ጉዳት አልባነት።
  • የእውቀት መበታተን; በDeepSeek-R1 የተሰበሰቡ 800k ናሙናዎችን በመጠቀም የክዌን እና ላማን የክፍት ምንጭ ሞዴሎችን በደንብ ያስተካክላል።

ዝርዝር ዘዴዎች እና ሂደቶች;

DeepSeek-R1-ዜሮ፡ ማጠናከሪያ ትምህርት ለመሠረታዊ ሞዴሎች

  • የማጠናከሪያ ትምህርት ስልተ ቀመር፡ የቡድን አንጻራዊ ፖሊሲ ማሻሻያ (GRPO) ስልተ ቀመር ይጠቀማል አያስፈልግም ሀ ተቺ ሞዴል፣ መነሻውን በቡድን ውጤቶች ይገምታል፣ እና የስልጠና ወጪን ይቀንሳል.
  • የሽልማት ሞዴሊንግ፡- ይጠቀማል ሀ ደንብ ላይ የተመሠረተ የሽልማት ሥርዓትጨምሮ
  • ትክክለኛነት ሽልማት; እንደ የመጨረሻው ውጤት ትክክለኛነት መልሱ ትክክል መሆኑን ይገመግማል የሂሳብ ችግር መልስ ፣ ለኮድ ችግሮች ከአቀናባሪው የተሰጠው አስተያየት.
  • የቅርጸት ሽልማት፡ ሞዴሉን ያበረታታል። መካከል ያለውን የአስተሳሰብ ሂደት አስቀምጥ እና tags.

የሥልጠና አብነት፡- አብነት የያዘ እና መለያዎች የተነደፉት ለ ሞዴሉን በመጀመሪያ የአስተሳሰብ ሂደቱን እንዲያወጣ እና ከዚያም የመጨረሻውን መልስ እንዲሰጥ ይምሩ.

  • ራስን የዝግመተ ለውጥ ሂደት; DeepSeek-R1-ዜሮ አሳይቷል። በስልጠና ወቅት ራስን የዝግመተ ለውጥ ባህሪያት፣ እና በራስ ገዝ የበለጠ ውስብስብ የማመዛዘን ስልቶችን መማር ችሏል፣ እንደ ብዙ ችግር ፈቺ መንገዶችን ማሰላሰል እና ማሰስ።.

DeepSeek-R1፡ የማጠናከሪያ ትምህርት ከቀዝቃዛ ጅምር ጋር ተደምሮ

  • ቀዝቃዛ ጅምር; DeepSeek-R1-ዜሮን ለመፍታት የማንበብ ችግር, DeepSeek-R1 በመጀመሪያ ትንሽ መጠን ይሰበስባል ከፍተኛ ጥራት ያለው የ CoT ውሂብ እና የDeepSeek-V3-Base ሞዴሉን በጥሩ ሁኔታ ያስተካክላል ለማጠናከሪያ ትምህርት እንደ የመጀመሪያ ተዋናይ ሆነው ያገለግላሉ. የቀዝቃዛው ጅምር ውሂብ ማጠቃለያ መለያዎችን እና ተስማሚ ያልሆኑ ምላሾችን ይዟል ተጣርተዋል.
    • ዘዴ: 1) ከፍተኛ ጥራት ያለው ረጅም COT ውሂብ ይምረጡ. 2) ያክሉ እና መለያ ያድርጉ።
    • ጥቅሞቹ፡ 1) የተመቻቸ ተነባቢነት (የ R1-ዜሮ የብዝሃ ቋንቋ ችግር ወይም የማርክ ማድረጊያ ቅርጸት ችግርን መፍታት)። 2) በጥንቃቄ የተመረጠ በሰው የተመረጠ መረጃ በR1-ዜሮ ላይ አፈጻጸምን ማሻሻል መቀጠል ይችላል።
    • ጥያቄ፡ የመነበብ ችግርን ለምን ይፈታል? ሳይፈታ (ለምሳሌ የውጤቱን ርዝመት በመቀነስ እና በብቃት ግምት ውስጥ በማስገባት) የተሻለ መስራት አይቻልምን?
  • በምክንያት ላይ ያተኮረ አር.ኤል. በቀዝቃዛው ጅምር ሞዴል ላይ በመመስረት ፣ ተመሳሳይ የማጠናከሪያ ትምህርት ሂደት DeepSeek-R1-ዜሮ የተተገበረው እንደ ኮድ፣ ሂሳብ፣ ሳይንሳዊ እና አመክንዮአዊ አመክንዮ ባሉ ተግባራት የአምሳያው ችሎታን በማሻሻል ላይ በማተኮር ነው።. የተቀላቀሉ ቋንቋዎችን ችግር ለመፍታት (ባለብዙ ቋንቋ አመክንዮ), የቋንቋ ወጥነት ሽልማቶች ይተዋወቃሉ።
    • ጥያቄ፡ ሳይንሳዊ እና አመክንዮአዊ የማመዛዘን ተግባራት እና የውሂብ ስብስቦች እንዴት የሰለጠኑ ናቸው?
  • ውድቅ የተደረገ ናሙና እና SFT፡ በመረጃ የተመራ የማጠናከሪያ ትምህርት ከተሰበሰበ በኋላ የተገኘው የፍተሻ ነጥብ ጥቅም ላይ ይውላል አዲስ የኤስኤፍቲ መረጃን ለማመንጨት ውድቅ የተደረገ ናሙና፣ ይህም ከDeepSeek-V3 ካለው መረጃ ጋር ተጣምሮ የአምሳያውን በጽሁፍ፣ በተጫዋችነት እና በአጠቃላይ ተግባራት ውስጥ ያለውን አቅም ለማሳደግ።
    • ዓላማ፡-
      • ይህ ደረጃ የሚጀምረው ከሂደቱ በኋላ ነው። በፍላጎት ላይ ያተኮረ የማጠናከሪያ ትምህርት (RL) ሂደት ይሰበሰባል.
      • ዋናው ዓላማው ነው ክትትል የሚደረግበት ጥሩ ማስተካከያ (ኤስኤፍቲ) መረጃን መሰብሰብ ለቀጣይ የስልጠና ዙሮች ጥቅም ላይ ይውላል.
      • በመረጃ ላይ ብቻ ከሚያተኩረው ከመጀመሪያው የቀዝቃዛ ጅምር ውሂብ በተለየ ይህ ደረጃ ዓላማ ያለው ነው። የአምሳያው ችሎታዎችን ያስፋፉ ማጠቃለያ ብቻ ሳይሆን መጻፍ፣ ሚና-መጫወት እና ሌሎች አጠቃላይ ዓላማ ሥራዎችን ለመሸፈን።
    • የውሂብ መሰብሰብ - የማጣቀሻ ውሂብ;
      • ዘዴ፡- በናሙና ውድቅነት የማጣቀሻ አቅጣጫዎችን ለማመንጨት ከፍላጎት-ተኮር RL ደረጃ የተገኙ የፍተሻ ነጥቦችን ይጠቀሙ።
      • የውሂብ ስብስብ መስፋፋት; ህግን መሰረት ያደረገ የሽልማት ውሂብ ብቻ ከተጠቀመው ከቀዳሚው የRL ደረጃ በተለየ፣ ህግን መሰረት ያላደረገ የሽልማት ውሂብ እዚህ ገብቷል። በአንዳንድ አጋጣሚዎች ምላሹን ለመወሰን የጄኔሬቲቭ ሽልማት ሞዴል (DeepSeek-V3) ጥቅም ላይ ይውላል.
      • የውሂብ ማጣሪያ፡ ጥራትን እና ተነባቢነትን ለማረጋገጥ ውጽዓቱ እንዲወገድ ይጣራል፡-
        • የተቀላቀሉ ቋንቋዎችን የያዙ የአስተሳሰብ ሰንሰለቶች
        • ረጅም አንቀጾች
        • ኮድ ብሎኮች
      • ናሙና እና ምርጫ; ለእያንዳንዱ ጥያቄ፣ በርካታ ምላሾች ተፈጥረዋል። ለውሂብ ስብስብ "ትክክለኛ" ምላሽ ብቻ ነው የቀረው።
      • የውሂብ ስብስብ መጠን፡- በግምት 600,000 ከግንዛቤ ጋር የተያያዙ የስልጠና ናሙናዎች በዚህ መንገድ ተሰብስበዋል.
    • የመረጃ አሰባሰብ - የማያስገባ ውሂብ;
      • ሽፋን፡ መፃፍ፣ ትክክለኛ የጥያቄ መልስ (QA)፣ ራስን ማወቅ እና ትርጉም።
      • ወረቀቱ አጠቃቀምን ይጠቅሳል የDeepSeek-V3 ሂደት እና የDeepSeek-V3 SFT የውሂብ ስብስብ አካልን እንደገና ይጠቀማል። እነዚህን አላስፈላጊ ስራዎችን ለማስተናገድ. ስለ 200,000 ከፍላጎት ነፃ የሆኑ ናሙናዎች ተሰብስበው ነበር. (ማስታወሻ፡- የመረጃ አሰባሰብ ዝርዝሮች በክፍል 2.3.4 የበለጠ ተገልጸዋል)
    • የተሰበሰበ ውሂብ አጠቃቀም;
      • የተሰበሰበው የማመዛዘን እና ምክንያታዊ ያልሆነ መረጃ (በአጠቃላይ ወደ 800,000 ናሙናዎች - 600,000 የማመዛዘን ናሙናዎች + 200,000 ምክንያታዊ ያልሆኑ ናሙናዎች) የDeepSeek-V3-Base ሞዴልን ለሁለት ዘመናት ማስተካከል. ይህ በጥሩ ሁኔታ የተስተካከለ ሞዴል በክፍል 2.3.4 በተገለጸው በመጨረሻው የ RL ደረጃ ላይ ጥቅም ላይ ውሏል።
    • ማጠቃለያ ይህ ደረጃ የማመዛዘን ችሎታዎችን ይጠቀማል የተለያየ እና ከፍተኛ ጥራት ያለው የኤስኤፍቲ መረጃ ስብስብ ለማመንጨት በ RL በኩል ተምሯል። ይህ የውሂብ ስብስብ የማመዛዘን ችሎታዎችን ያጠናክራል እንዲሁም አጠቃላይ ችሎታዎችን ያሰፋዋል በመጨረሻው አሰላለፍ እና ማሻሻያ ደረጃ ላይ የስልጠና ሞዴል.
  • የማጠናከሪያ ትምህርት ለሁሉም ሁኔታዎች፡ የሰዎችን ምርጫዎች የበለጠ ለማጣጣም የአምሳያው አጋዥነት እና ጉዳት አልባነት ለማሻሻል ሁለተኛ ደረጃ የማጠናከሪያ ትምህርት ተተግብሯል።
    • የማጣቀሻ መረጃ፡- ለምሳሌ ሂሳብ፣ ኮድ፣ ሎጂካዊ መረጃ ወይም በደንብ መሰረት ዘዴዎች ቁጥጥር የሚደረግበት።
    • አጠቃላይ መረጃ፡ የሽልማት ሞዴሎች አሁንም ለተወሳሰቡ እና ስውር ሁኔታዎች የምርጫ መረጃን ለማቅረብ ያገለግላሉ። በተጣመረ መረጃ የሰለጠኑ ሞዴሎችም ይገመታሉ።
    • ጠቃሚነት: በመጨረሻው የማጠቃለያ ውጤቶች ላይ ብቻ ያተኩሩ, በማጣቀሻው ሂደት ላይ ጣልቃ መግባትን ይቀንሱ.
    • ጉዳት-አልባነት፡ ማንኛውንም አደጋዎችን ለመቀነስ ምላሹን በሙሉ ይቆጣጠሩ።

የሞዴል ማስወጫ (Distillation):

  • ይበልጥ ቀልጣፋ የሆነ አነስተኛ የኢንፈረንስ ሞዴል ለማግኘት ወረቀቱ የ DeepSeek-R1ን ወደ ክዌን እና ላማ ተከታታይ የክፍት ምንጭ ሞዴሎች ያሰራጫል። የማጣራት ሂደት ክትትል የሚደረግበት ጥሩ ማስተካከያ (ኤስኤፍቲ) ብቻ ነው የሚጠቀመው እና የማጠናከሪያ ትምህርት ደረጃን አይጠቀምም.

ማጠቃለያ

DeepSeek-R1-ዜሮአቅምን ያሳያል የኤል.ኤም.ኤልን የማመዛዘን ችሎታን ለማነሳሳት ንጹህ የማጠናከሪያ ትምህርት ፣ እና ጠንካራ አፈፃፀምን ሊያመጣ ይችላል። ክትትል የሚደረግበት ውሂብ ላይ ሳይታመን.

  • አሃ-አፍታ፡ የማጠናከሪያ ትምህርት ውበት (የአምሳያው የእውቀት ጊዜ ፣ የት ነው። እንደገና መገምገምን በመማር ለችግሩ ተጨማሪ የማሰብ ጊዜ ይመድባል የመጀመሪያ አቀራረብ)
  • የውጤቱ ርዝመት መጨመሩን ይቀጥላል (የማሰብ ጊዜ እየጨመረ ይሄዳል)
  • ትክክለኝነት መሻሻል ይቀጥላል (ትክክለኝነትን ለማስላት 16 ምላሾች ናሙና)
  • DeepSeek-R1የቀዝቃዛ ጅምር መረጃን እና ተደጋጋሚ ማጠናከሪያ ትምህርት ጥሩ ማስተካከያን በማጣመር የሞዴል አፈጻጸምን የበለጠ ያሻሽላል። በተለያዩ ተግባራት ላይ ከOpenAI-01-1217 ጋር የሚወዳደር ደረጃ ላይ መድረስ.
  • የእውቀት መበታተን: DeepSeek-R1ን እንደ አስተማሪ ሞዴል በመጠቀም 800K የሥልጠና ናሙናዎች ተፈጥረዋል እና ብዙ ትናንሽ እና ጥቅጥቅ ያሉ ሞዴሎች በጥሩ ሁኔታ ተስተካክለዋል። ውጤቶቹ ይህን ያሳያሉ የ distillation ዘዴ ጉልህ የመረዳት ችሎታ ማሻሻል ይችላሉ ትናንሽ ሞዴሎች.

ገደብ

  • ገደብ 1፡ የDeepSeek-R1 አጠቃላይ አቅም መሻሻል አለበት። DeepSeek-R1 አሁንም ከDeepSeek-V3 በታች ነው እንደ የተግባር ጥሪዎች፣ ባለብዙ ዙር ውይይት፣ ውስብስብ ሚና መጫወት እና የJSON ውፅዓት።
  • ገደብ 2፡ የቋንቋ መቀላቀል ችግር። DeepSeek-R1 ቻይንኛ ያልሆኑ እና እንግሊዘኛ ያልሆኑ ጥያቄዎችን ሲያስተናግድ የቋንቋ መቀላቀል ችግር ሊያጋጥመው ይችላል ለምሳሌ በእንግሊዘኛ ማመዛዘን እና ምላሽ ሲሰጥ።
  • ገደብ 3፡ ፈጣን ስሜታዊነት። DeepSeek-R1 ለፈጣን ቃላቶች ስሜታዊ ነው፣ እና ጥቂት-ተኩስ መጠየቂያ አፈፃፀሙን ይቀንሳል።
  • ገደብ 4፡ ለሶፍትዌር ምህንድስና ተግባራት የተገደበ መተግበሪያ። በረዥሙ የግምገማ ጊዜ ምክንያት፣ መጠነ ሰፊ የማጠናከሪያ ትምህርት በሶፍትዌር ምህንድስና ተግባራት ላይ ሙሉ በሙሉ አልተተገበረም እና DeepSeek-R1 በሶፍትዌር ምህንድስና መለኪያዎች ላይ ከDeepSeek-V3 የተወሰነ ማሻሻያ አድርጓል።

ተመሳሳይ ልጥፎች

ምላሽ ይስጡ

ኢ-ፖስታ አድራሻወ ይፋ አይደረግም። መሞላት ያለባቸው መስኮች * ምልክት አላቸው