DeepSeek-R1 ቴክኖሎጂ ተገለጠ፡ የወረቀቱ ዋና መርሆች ተከፋፈሉ እና የሞዴል አፈጻጸም ቁልፍ ተገለጠ።
ዛሬ DeepSeek R1ን እናካፍላለን፣ አርእስት፡ DeepSeek-R1፡ የማመዛዘን ችሎታን በኤል.ኤም.ኤል.ኤም በማጠናከሪያ ትምህርት በማበረታታት፡ የኤልኤልኤም የማመዛዘን ችሎታን በማጠናከሪያ ትምህርት ማበረታታት። ይህ ወረቀት የDeepSeek የመጀመሪያ ትውልድ የማመዛዘን ሞዴሎችን፣ DeepSeek-R1-ዜሮ እና DeepSeek-R1ን ያስተዋውቃል። የDeepSeek-R1-ዜሮ ሞዴል በትልቅ የማጠናከሪያ ትምህርት (RL) ያለ ክትትል የሚደረግበት ጥሩ ማስተካከያ (SFT) እንደ መጀመሪያ ደረጃ፣...