ረቂቅ

ይህ ወረቀት የDeepSeek የመጀመሪያ ትውልድ የማመዛዘን ሞዴሎችን ያስተዋውቃል፡ DeepSeek-R1-ዜሮ እና DeepSeek-R1። DeepSeek-R1-ዜሮ፣ በትልቅ የማጠናከሪያ ትምህርት (RL) ያለ ክትትል የሚደረግበት ጥሩ ማስተካከያ (SFT)፣ አስደናቂ የማመዛዘን ችሎታዎችን ያሳያል። በ RL በኩል፣ በተፈጥሮ ኃይለኛ የማመዛዘን ባህሪያትን ያዳብራል። ሆኖም፣ እንደ ደካማ ተነባቢነት እና የቋንቋ መደባለቅ ያሉ ተግዳሮቶች ገጥመውታል። እነዚህን ችግሮች ለመፍታት እና የማመዛዘን አፈጻጸምን ለማሻሻል፣ DeepSeek-R1 ተዘጋጅቷል፣ ከ RL በፊት ባለ ብዙ ደረጃ ስልጠና እና የቀዝቃዛ ጅምር መረጃዎችን በማካተት። DeepSeek-R1 ከOpenAI-o1-1217 ጋር የሚወዳደር አፈጻጸምን በምክንያታዊነት ተግባራት ላይ አሳክቷል። ምርምርን ለመደገፍ፣ DeepSeek ክፍት ምንጮች ሁለቱንም ሞዴሎች እና ስድስት ጥቅጥቅ ያሉ ሞዴሎችን (1.5B፣ 7B፣ 8B፣ 14B፣ 32B፣ 70B) ከDeepSeek-R1 በQwen እና Llama ላይ ተመስርተዋል።

ቁልፍ አስተዋጽዖዎች

ድህረ-ስልጠና፡ ትልቅ ደረጃ የማጠናከሪያ ትምህርት

  • በተሳካ ሁኔታ RL ያለ SFT ወደ መሰረታዊ ሞዴል በቀጥታ ተተግብሯል
  • እንደ ራስን ማረጋገጥ እና ነጸብራቅ ያሉ ችሎታዎችን በማሳየት DeepSeek-R1-ዜሮ ፈጠረ።
  • የማመዛዘን ችሎታዎች በአርኤል በኩል ብቻ ማበረታቻ እንደሚችሉ የሚያረጋግጥ የመጀመሪያ ክፍት ጥናት
  • አስተዋወቀ የቧንቧ መስመር ለ DeepSeek-R1 በሁለት RL ደረጃዎች እና በሁለት SFT ደረጃዎች

ማጣራት: ትናንሽ ሞዴሎችን ማበረታታት

  • ከትልልቅ ሞዴሎች የማመዛዘን ቅጦችን በብቃት ወደ ትናንሽ ሊከፋፈሉ እንደሚችሉ አሳይቷል።
  • የክፍት ምንጭ DeepSeek-R1 እና የእሱ ኤፒአይ የምርምር ማህበረሰብን ተጠቃሚ ለማድረግ
  • ልዩ የቤንችማርክ አፈጻጸምን የሚያሳዩ በጥሩ ሁኔታ የተስተካከሉ በርካታ ጥቅጥቅ ያሉ ሞዴሎች
  • የተበታተኑ ሞዴሎች ከቀደምት የክፍት ምንጭ ሞዴሎች በእጅጉ ይበልጣሉ

የግምገማ ውጤቶች

የማመዛዘን ተግባራት

  • DeepSeek-R1 በ AIME 2024 79.8% Pass@1 አግኝቷል፣ ከOpenAI-o1-1217 በልጦ
  • 97.3% ነጥብ በ MATH-500፣ ከOpenAI-o1-1217 ጋር እኩል በማከናወን ላይ
  • በ Codeforces ላይ 2,029 ኤሎ ደረጃ የተሰጠው በኮድ ውድድር ተግባራት የባለሙያ ደረጃ አፈፃፀም

የእውቀት ተግባራት

  • በMMLU (90.8%)፣ MMLU-Pro (84.0%) እና GPQA Diamond (71.5%) ላይ የላቀ ውጤት
  • በትምህርት ተግባራት ውስጥ ከሌሎች የተዘጉ ምንጮች ሞዴሎች ይበልጣል
  • እንደ SimpleQA ባሉ ተጨባጭ መመዘኛዎች ላይ ጠንካራ አፈጻጸም

አጠቃላይ ችሎታዎች

  • ኤክሰሎች በፈጠራ ጽሑፍ፣ የጥያቄ መልስ፣ አርትዖት እና ማጠቃለያ
  • 87.6% የአሸናፊነት መጠን በአልፓካኤቫል 2.0 እና 92.3% በአሬና ሃርድ
  • በረጅም አውድ የመረዳት ተግባራት ውስጥ ጠንካራ አፈጻጸም

የወደፊት ሥራ

ቡድኑ ትኩረት ለማድረግ አቅዷል፡-

  1. እንደ ተግባር ጥሪ እና ውስብስብ ሚና መጫወት ባሉ አካባቢዎች አጠቃላይ ችሎታዎችን ማሳደግ
  2. የቋንቋ መቀላቀል ጉዳዮችን መፍታት
  3. ፈጣን ምህንድስና ማሻሻል
  4. በሶፍትዌር ምህንድስና ተግባራት ላይ አፈፃፀምን ማሳደግ

ማጠቃለያ

DeepSeek-R1 በማጠናከሪያ ትምህርት በ AI የማመዛዘን ችሎታዎች ላይ ከፍተኛ እድገትን ይወክላል። የሁለቱም የዋናው ሞዴል እና የተበታተኑ ስሪቶች ስኬት ይህ አቀራረብ የበለጠ ችሎታ ያላቸው AI ስርዓቶችን ለማዳበር ያለውን አቅም ያሳያል። የእነዚህ ሞዴሎች ክፍት ምንጭ መለቀቅ ለተጨማሪ ምርምር እና በመስክ ላይ እድገት አስተዋጽኦ ያደርጋል.

ተመሳሳይ ልጥፎች

ምላሽ ይስጡ

ኢ-ፖስታ አድራሻወ ይፋ አይደረግም። መሞላት ያለባቸው መስኮች * ምልክት አላቸው