ሰበር ዜና! DeepSeek ተመራማሪ በመስመር ላይ ገለጠየ R1 ስልጠና ከሁለት እስከ ሶስት ሳምንታት ብቻ የፈጀ ሲሆን በቻይና አዲስ አመት በዓል ላይ ኃይለኛ የ R1 ዜሮ ለውጥ ታይቷል.
ልክ አሁን፣ ያንን የDeepSeek ተመራማሪ አስተውለናል። ዳያ ጉኦ ስለ DeepSeek R1 እና የኩባንያው እቅድ ወደፊት ለሚሄዱት የnetizes ጥያቄዎች ምላሽ ሰጥተዋል። DeepSeek R1 ገና ጅምር ነው ማለት እንችላለን፣ እና የውስጥ ምርምር አሁንም በፍጥነት እየገሰገሰ ነው። የ DeepSeek ተመራማሪዎች በቻይና አዲስ አመት በዓል ላይ እንኳን እረፍት አላደረጉም እና ምርምርን ለማስፋፋት ደከመኝ ሰለቸኝ ሳይሉ ቆይተዋል። DeepSeek አንዳንድ ትልልቅ እንቅስቃሴዎች አሉት
ነገሩ እንዲህ ነው፡ በየካቲት 1 ዳያ ጉዎ በቻይና አዲስ አመት በዓል ወቅት በጣም ያስደሰተውን ነገር የሚገልጽ ትዊተር ለጥፏል፡ ስለ "ቀጣይ እድገት" የአፈጻጸም ከርቭ R1-ዜሮ ሞዴል, እና ስሜት ኃይለኛ ኃይል የማጠናከሪያ ትምህርት (RL)!
የዲፕሴክ AI ተመራማሪ ዳያ ጉኦ ከመረቡ ጋር ይነጋገራል።
አሁን የዳያ ጉኦ ከአውታረ መረቦች ጋር ያደረገውን ውይይት እንደገና እንድታዘጋጁ እረዳሃለሁ፡-
Netizen A @PseudoProphet፡ “ትልቅ ምት፣ ይህ ቀጣይነት ያለው የአፈጻጸም መሻሻል ለምን ያህል ጊዜ እንደሚቆይ መጠየቅ እፈልጋለሁ። ይህ ገና በመጀመርያ ደረጃዎች ላይ ነው? ልክ እንደ GPT-2 በቋንቋ ሞዴሎች የDeepSeek RL ሞዴል እየጀመረ ያለ ይመስላል? ወይንስ እንደ GPT-3.5 ያለ የበሰለ ደረጃ ላይ ደርሶ ማነቆውን ሊመታ ነው?
ይህ በጣም ስለታም ጥያቄ ነው፣ እሱም በቀጥታ ከDeepSeek's RL ቴክኖሎጂ አቅም ጋር ይዛመዳል! የዳያ ጉኦ ምላሽ በጣም ታማኝ ነው፡-
ዳያ ጉዎ፡- “አሁንም ገና በጣም የመጀመሪያ ደረጃ ላይ ያለን ይመስለኛል፣ እና በ RL መስክ ውስጥ ገና ብዙ ይቀራል። ነገር ግን በዚህ አመት ትልቅ እድገት እናያለን ብዬ አምናለሁ።
ቁልፍ ነጥቦቹን አድምቅ! "በጣም ቀደም", "ለማሰስ ረጅም መንገድ", "በዚህ አመት ትልቅ እድገት"! እነዚህ ቁልፍ ቃላት በመረጃ የተሞሉ ናቸው። ይህ ማለት DeepSeek አሁንም በ RL መስክ ለመሻሻል ብዙ ቦታ እንዳላቸው ያምናል, እና የ R1 ወቅታዊ ውጤቶች የበረዶ ግግር ጫፍ ብቻ ሊሆኑ ይችላሉ, ስለዚህ የወደፊቱ ጊዜ ተስፋ ሰጪ ነው!
ወዲያው በኋላ፣ ሌላ አውታረ መረብ @kaush_trip (Cheeku Tripati) በቀጥታ ወደ ሞዴል ችሎታዎች ልብ የሚሄድ የበለጠ ሙያዊ ጥያቄ ጠየቀ።
ተጠቃሚ B @kaush_trip፡ "በ R1-ዜሮ አፈጻጸም ላይ በመመስረት, ሞዴሉ በእርግጥ መኖሩን እንዴት ይገመግማሉ የአጠቃላይ ችሎታ፣ ወይም ብቻ የስቴት ሽግግሮችን እና ሽልማቶችን ያስታውሳል?
ይህ ጥያቄ በጣም ነጥቡ ነው! ደግሞም ፣ ብዙ ሞዴሎች በጣም ኃይለኛ ይመስላሉ ፣ ግን በእውነቱ እነሱ ከሥልጠና መረጃው 'የመጣስ ትምህርት' ብቻ ናቸው ፣ እና በተለየ አካባቢ ውስጥ ይወድቃሉ። DeepSeek R1 በእርግጥ እስከ ጅምር ነው?
ዳያ ጉኦ፡ “በአርኤል መጠየቂያ ላልተሸፈኑ ጎራዎች የአጠቃላይ ችሎታን ለመገምገም መለኪያ እንጠቀማለን። በአሁኑ ጊዜ አጠቃላይ ችሎታ ያለው ይመስላል።
"በ RL ጥያቄ ያልተሸፈኑ ቦታዎች" የሚለው ሐረግ ቁልፍ ነው! ይህ ማለት DeepSeek ግምገማውን በስልጠና መረጃ “ማጭበርበር” ሳይሆን በአምሳያው አዳዲስ ሁኔታዎች ተፈትኗል ማለት ነው። አይቶ አያውቅም በፊት, ይህም በእውነት የአምሳያው አጠቃላይ ደረጃን ሊያንፀባርቅ ይችላል. የዳያ ጉኦ “ያለ ይመስላል” የሚለውን ጥብቅ የቃላት አገባብ መጠቀሙም የበለጠ እውነታዊ እና ተአማኒ ያደርገዋል።
በመቀጠል፣ መታወቂያ @teortaxesTex ያለው መረብ የDeepSeek ትልቅ ደጋፊ (የሰጠው አስተያየት "DeepSeek whale cheerleading team" የሚሉ ቃላትን ጨምሮ) በDeepSeek V3 ቴክኒካል ዘገባ ጀምሯል እና ጥያቄ ጠየቀ። ሞዴል የስልጠና ጊዜ:
ተጠቃሚ C @teortaxesTex፡- “ምስጢር ካልሆነ፡ የ RL ስልጠና ይህን ጊዜ ለምን ያህል ጊዜ ወሰደ? በዲሴምበር 10 መጀመሪያ ላይ R1 ወይም ቢያንስ R1-ዜሮ እንዳለዎት ይሰማዎታል፣ ምክንያቱም የV3 ቴክኒካል ሪፖርቱ የV2.5 ሞዴል R1 እውቀትን መጠቀሙን ይጠቅሳል እና የ V2.5-1210 ውጤት ከዚ ጋር ተመሳሳይ ነው። የአሁኑ ሞዴል. ይህ የዚያ ስልጠና ቀጣይ ነው? ”
ይህ መረብ አስገራሚ የመመልከቻ ሃይል አለው! ከቴክኒካል ዘገባው ብዙ ዝርዝሮችን ማውጣት ችሏል። ዳያ ጉዎ የአምሳያው ተደጋጋሚ ሂደትን በትዕግስት አብራራ፡-
Daya Guo: "የ 660B R1-ዜሮ እና R1 መለኪያዎች መሮጥ የጀመሩት V3 ከተለቀቀ በኋላ ብቻ ነው, እና ስልጠናው ከ2-3 ሳምንታት ወስዷል. ከዚህ ቀደም የጠቀስነው R1 ሞዴል (ለምሳሌ በV3 ቴክኒካል ዘገባ) R1-Lite ወይም R1-Lite-Zero ነው።
ስለዚህ ያ ነው! አሁን የምናያቸው R1-ዜሮ እና R1 "አዲስ እና የተሻሻሉ ስሪቶች" ናቸው, እና የቀደሙት R1-Lite ተከታታይ ጥቃቅን ስሪቶች ናቸው. DeepSeek በጸጥታ ደጋግሞ ብዙ ስሪቶችን ከመጋረጃው ጀርባ ያሳደገ ይመስላል
የሥልጠናውን ፍጥነት በተመለከተ ኔትዚን @jiayi_pirate (Jiayi Pan) እና netizen B @kaush_trip "የነፍስ ምርመራ" አስተላልፈዋል፡-
ተጠቃሚ D @jiayi_pirate፡ "በ 3 ሳምንታት ውስጥ 10,000 RL እርምጃዎች ፣ እያንዳንዱ የግራዲየንት ፕሮፓጋንዳ (grpo) እርምጃ ~ 3 ደቂቃ ይወስዳል 🤔"
ተጠቃሚ B @kaush_trip፡ "እያንዳንዱ የግራዲየንት ፕሮፓጋንዳ (grpo) እርምጃ ~ 3 ደቂቃ የሚወስድ ከሆነ ይህ በሰዓት 5 እርምጃዎች ፣ በቀን 120 እርምጃዎች ነው ፣ ይህ በእውነቱ በጣም ቀርፋፋ ነው።
ይህ በጣም ትክክለኛ ስሌት ነው! እንደ መረቡ ስሌት, የ DeepSeek R1 የስልጠና ፍጥነት በእርግጥ ፈጣን አይደለም. ይህ የሚያሳየው እንዲህ ዓይነቱ ከፍተኛ አፈጻጸም ያለው የ RL ሞዴል የስልጠና ወጪ እና የጊዜ ኢንቨስትመንት በጣም ትልቅ ነው. "ቀስ በቀስ ስራ ጥሩ ስራን ይፈጥራል" የ AI ሞዴል ስልጠናን ለመግለጽ በጣም ትክክለኛ መንገድ ይመስላል
በመጨረሻ፣ @davikrehalt (አንዲ ጂያንግ) የተባለ አውታረ መረብ ከላቁ የመተግበሪያ እይታ አንጻር ጥያቄ ጠየቀ፡-
ተጠቃሚ ኢ @davikrehalt፡ “አርኤልን ለመጠቀም ሞክረዋል። መደበኛ የአካባቢ ማረጋገጫጥያቄዎችን ብቻ ከመመለስ ይልቅ? ክፍት ምንጭ ሞዴል በዚህ አመት በ IMO (አለም አቀፍ የሂሳብ ኦሊምፒያድ) የወርቅ ሜዳሊያ ቢያሸንፍ ጥሩ ነበር! (እና ተጨማሪ ተስፋዎች!)
መደበኛ ማስረጃ! IMO የወርቅ ሜዳሊያ! ይህ አውታረ መረብ በጣም ሥልጣን ያለው ነው! ሆኖም፣ AIን ወደ ሃርድኮር የሂሳብ ማረጋገጫ መስክ መተግበር በእርግጥ የወደፊት አዝማሚያ ነው። የዳያ ጉኦ ምላሽ በድጋሚ አስገራሚ ነው፡-
ዳያ ጉዎ፡- “እንዲሁም R1 ን እንደ ሊን ላሉ መደበኛ ማረጋገጫ አካባቢዎች ለማመልከት እየሞከርን ነው። በቅርቡ የተሻሉ ሞዴሎችን ለህብረተሰቡ ለመልቀቅ ተስፋ እናደርጋለን።
ከዳያ ጉኦ ቃላቶች ፣ በዚህ አካባቢ ቀድሞውኑ መሻሻል ያደረጉ ይመስላል ፣ እና ለወደፊቱ የበለጠ አስደናቂ ሞዴሎች ሊኖሩ ይችላሉ!
በመዝጋት ላይ
ከዳያ ጉኦ ምላሽ ሶስት ቁልፍ ምልክቶች ሊጠፉ ይችላሉ፡
ቴክኒካዊ አቀማመጥ: RL ገና በመጀመሪያ ደረጃ ላይ ነው, እና የአፈፃፀም ማሻሻያዎች ገደባቸውን ከመድረስ በጣም የራቁ ናቸው;
የማረጋገጫ አመክንዮ፡- የጎራ አቋራጭ ሙከራ አጠቃላይ ችሎታ፣ “የማስታወሻ ግምትን አለመቀበል
የመተግበሪያ ድንበሮች፡ ከቋንቋ ሞዴሎች እስከ የሂሳብ ማረጋገጫዎች፣ RL ወደ ከፍተኛ-አመክንዮ እየሄደ ነው።