Paper-DeepSeek-R1፡ በማጠናከሪያ ትምህርት በኤልኤልኤምዎች የማመዛዘን ችሎታን ማበረታታት
Abstract ይህ ወረቀት የDeepSeek የመጀመሪያ-ትውልድ የማመዛዘን ሞዴሎችን ያስተዋውቃል፡ DeepSeek-R1-ዜሮ እና DeepSeek-R1። DeepSeek-R1-ዜሮ፣ በትልቅ የማጠናከሪያ ትምህርት (RL) ያለ ክትትል የሚደረግበት ጥሩ ማስተካከያ (SFT)፣ አስደናቂ የማመዛዘን ችሎታዎችን ያሳያል። በ RL በኩል፣ በተፈጥሮ ኃይለኛ የማመዛዘን ባህሪያትን ያዳብራል። ሆኖም፣ እንደ ደካማ ተነባቢነት እና የቋንቋ መደባለቅ ያሉ ተግዳሮቶች ገጥመውታል። እነዚህን ችግሮች ለመፍታት እና የማመዛዘን አፈጻጸምን ለማሻሻል DeepSeek-R1 ተዘጋጅቷል፣…