DeepSeek R1 ሞዴል አሁን ያለው ስሪት DeepSeek-R1-0528 የሆነ አነስተኛ ስሪት ማሻሻያ አድርጓል። የDeepSeek ድረ-ገጽ ወይም መተግበሪያ ሲያስገቡ፣በንግግር በይነገጽ ውስጥ ያለውን የ"ጥልቅ አስተሳሰብ" ባህሪን ያንቁ የቅርብ ጊዜውን ስሪት።

የDeepSeek-R1-0528 የሞዴል ክብደቶች ወደ HuggingFace ተሰቅለዋል።

ባለፉት አራት ወራት ውስጥ፣ DeepSeek-R1 ከገበታው ውጪ የሆኑ የኮድ ችሎታዎችን እና በጣም ረዘም ያለ የአስተሳሰብ ጊዜዎችን በማሳካት ልዕለ-ዝግመተ ለውጥ አድርጓል። ላይሆን ይችላል ቢሆንም DeepSeek-R2 ሁሉም ሰው እየጠበቀው ነበር፣ በDeepSeek-R1-0528 ሞዴል ውስጥ ያሉት ማሻሻያዎች ከፍተኛ ናቸው።

እንደ ሪፖርቶች, አዲሱ ሞዴል በ DeepSeek-V3-0324 (ከ 660B መለኪያዎች ጋር) የሰለጠነ ነው.

በመጀመሪያ በዚህ እትም ውስጥ ያሉትን ቁልፍ ዝመናዎች በጠረጴዛ በኩል በፍጥነት እንመልከታቸው

የችሎታ መጠንdeepseek-R1Deepseek-R1-0528
ከፍተኛው አውድ64 ኪ(ኤፒአይ)128 ኪ (ኤፒአይ) የበለጠ
ኮድ ማመንጨትliveCodeBench openai O1ን ይዝጉወደ O3 ቅርብ
የማመዛዘን ጥልቀትውስብስብ ጥያቄዎች የተከፋፈሉ ጥያቄዎችን ይፈልጋሉ።ከ30-60 ደቂቃዎች ጥልቅ አስተሳሰብን ይደግፋል
የቋንቋ ተፈጥሯዊነትይልቅ ረጅምየታመቀ መዋቅር ፣ ከ O3 ጋር ተመሳሳይ የሆነ ጽሑፍ
የአጠቃቀም ዋጋክፍት ምንጭ ወይም API$0.5/Mክፍት ምንጭ ወይም API$0.5/M

ጥልቅ የማሰብ ችሎታዎችን ማሻሻል

DeepSeek-R1-0528 አሁንም በዲሴምበር 2024 የወጣውን DeepSeek V3 Base ሞዴል እንደ መሰረት ይጠቀማል፣ ነገር ግን በድህረ-ስልጠና ወቅት፣ ተጨማሪ የማስላት ሃይል ኢንቨስት ተደርጓል፣ ይህም የአምሳያውን የአስተሳሰብ ጥልቀት እና የማመዛዘን ችሎታን በእጅጉ ያሳደገ ነው።

የተሻሻለው የ R1 ሞዴል በበርካታ የቤንችማርክ ግምገማዎች በሁሉም የሃገር ውስጥ ሞዴሎች መካከል ከፍተኛ ደረጃ አፈጻጸም ያስመዘገበ ሲሆን ይህም ሂሳብ፣ ፕሮግራሚንግ እና አጠቃላይ አመክንዮዎችን ጨምሮ፣ እና አጠቃላይ አፈፃፀሙ አሁን እንደ o3 እና Gemini-2.5-Pro ካሉ አለምአቀፍ ከፍተኛ ደረጃ ሞዴሎች ጋር እኩል ነው።

  • የሂሳብ እና የፕሮግራም ችሎታዎች፡ በ AIME 2025 የሂሳብ ውድድር፣ ትክክለኛነት ከ70% በቀድሞው ስሪት ወደ 87.5% ተሻሽሏል። በ LiveCodeBench ቤንችማርክ ፈተና ውስጥ ያሉ የኮድ የማመንጨት ችሎታዎች ከO3-high ሞዴል ከOpenAI's o3-high ሞዴል ጋር እኩል ናቸው፣ ማለፊያ@1 ነጥብ ማግኘት 73.3% ነው።

የተጠቃሚ ሙከራዎች እንደሚያሳዩት አዲሱ DeepSeek-R1 በቀላሉ በፕሮግራም አወጣጥ አስደናቂ ነው!

የኤአይኤ ኤክስፐርት “ካርሚንስኪ-የጥርስ ሀኪም” DeepSeek-R1-0528 እና Claude 4 Sonnetን ተመሳሳይ ጥያቄን በመጠቀም ሞክረዋል፡-

በግድግዳው ላይ ያለው የተንሰራፋው የብርሃን ነጸብራቅ፣ ከተፅዕኖ በኋላ የኳስ እንቅስቃሴ አቅጣጫ ወይም የቁጥጥር ፓነል ውበት ፣ R1 ውድድሩን በግልፅ ያሳያል።

የተጠቃሚ ሃይደር። ሞዴሉ የቃላት አወጣጥ ስርዓት እንዲገነባ አድርጓል። አር 1 ስራውን ባጭሩ ተመልክቶ ወዲያው ሁለት ፋይሎችን አቀረበ-አንዱ ለኮድ እና ሌላ ለስራ ሙከራ - በመጀመሪያው ሙከራ ላይ እንከን የለሽ በሆነ መልኩ ሮጡ።

ከዚህ ቀደም ይህንን ተግባር ማጠናቀቅ የሚችል ብቸኛው ሞዴል o3 ነበር። አሁን, R1 ለዚህ ተግባር በጣም ጥሩው ሞዴል እንደሆነ ጥርጥር የለውም.

የR1 አፈፃፀሙ በጣም አስደናቂ ነው ምክንያቱም የሚመልሳቸው ሁለቱ ፋይሎች በመጀመሪያው ሙከራ ላይ ምንም አይነት አርትዖት ሳይኖራቸው ወይም እንደገና ሳይሞክሩ ስለሚሄዱ ይህም እጅግ በጣም አልፎ አልፎ ነው።

ከዚህ ቀደም, አብዛኛዎቹ ሞዴሎች በዳርቻ ጉዳዮች ላይ ይቋረጣሉ, መፍትሄውን ያወሳስበዋል ወይም በቂ የሙከራ ሽፋን የላቸውም.

  • የማጣቀሻ ጥልቀት፡ የአንድ ተግባር የማሰብ ጊዜ እስከ 30–60 ደቂቃ ድረስ ተራዝሟል፣ ለተወሳሰቡ ጉዳዮች በከፍተኛ ሁኔታ የተሻሻለ ችግር ፈቺ አቅሞች (ለምሳሌ የፊዚክስ ማስመሰያዎች፣ ባለብዙ ደረጃ አመክንዮ እንቆቅልሾች)።

ረጅም የማሰብ ጊዜ በመስመር ላይ በጣም የተወያየበት ባህሪ ሆኗል። አንዳንድ ተጠቃሚዎች የR1 የአስተሳሰብ ጊዜ ከ25 ደቂቃዎች በላይ በገሃዱ ዓለም ሙከራዎች እንደ ማለፉን ሪፖርት አድርገዋል።

በተጨማሪም፣ “9.9 ሲቀነስ 9.11 ምንድን ነው?” ያለማቋረጥ በትክክል መመለስ የሚችል ብቸኛው ሞዴል ይህ ይመስላል።

DeepSeek-R1-0528 በጣም ጥሩ አፈፃፀም አግኝቷል በሁሉም የግምገማ የውሂብ ስብስቦች ላይ

ከቀዳሚው የ R1 ስሪት ጋር ሲነጻጸር, አዲሱ ሞዴል ውስብስብ የማመዛዘን ስራዎች ላይ ጉልህ መሻሻሎችን ያሳያል. ለምሳሌ፣ በ AIME 2025 ፈተና፣ የአዲሱ ሞዴል ትክክለኛነት መጠን ከ70% ወደ 87.5% አድጓል።

ይህ ማሻሻያ በአምሳያው ውስጥ በተሻሻለው የማመዛዘን ጥልቀት ምክንያት ነው፡ በ AIME 2025 የፈተና ስብስብ፣ የድሮው ሞዴል በአማካይ 12 ኪ ቶከኖች በአንድ ጥያቄ ተጠቅሟል፣ አዲሱ ሞዴል ደግሞ በጥያቄ ውስጥ በአማካይ 23 ኪ ቶከን ተጠቅሟል፣ ይህም በችግር አፈታት ሂደት ውስጥ የበለጠ ዝርዝር እና ጥልቅ አስተሳሰብን ያሳያል።

በተጨማሪም፣ የdeepseek ቡድን የማመዛዘን ሰንሰለቱን ከDeepSeek-R1-0528 እና በጥሩ ሁኔታ የተስተካከለ የQwen3-8B Base ጠራርጎ በማውጣት DeepSeek-R1-0528-Qwen3-8B አስገኘ።

ይህ 8B ሞዴል በ AIME 2024 የሒሳብ ፈተና ከDeepSeek-R1-0528 ሁለተኛ ደረጃ ላይ ተቀምጧል፣ከQwen3-8B(+10.0%) እና Qwen3-235B ጋር በማዛመድ።

የDeepSeek-R1-0528 የማመዛዘን ሰንሰለቶች በምክንያታዊ ሞዴሎች እና በአነስተኛ ደረጃ ሞዴሎች የኢንዱስትሪ ልማት ላይ ለአካዳሚክ ምርምር ከፍተኛ አንድምታ ይይዛሉ።

አንዳንድ መረቦች እንደ o3 ያሉ የማመዛዘን ሰንሰለቶችን ማስተካከል እና እንደ ክላውድ ያሉ ዓለሞችን በፈጠራ በመገንባት DeepSeek-R1ን አወድሰዋል።

DeepSeek የክፍት ምንጭ ሞዴል መሆኑን ልብ ማለት ያስፈልጋል፣ ይህም ለክፍት ምንጭ ሞዴሎች ትልቅ ድል ነው።

AIME 2024 ንጽጽር ውጤቶች ለክፍት ምንጭ ሞዴሎች እንደ DeepSeek-R1-0528-Qwen3-8B

ሌሎች የችሎታ ማሻሻያዎች

  • የቅዠት መሻሻል፡ አዲሱ የDeepSeek R1 እትም ለ"ቅዠት" ጉዳዮች አመቻችቷል። ከቀዳሚው ስሪት ጋር ሲነጻጸር፣ የተዘመነው ሞዴል በ45-50% የቅዠት መጠንን በመቀነስ እንደ እንደገና መጻፍ እና ማጥራት፣ ማጠቃለል እና የማንበብ ግንዛቤን በማሳየት የበለጠ ትክክለኛ እና አስተማማኝ ውጤቶችን አስገኝቷል።
  • የፈጠራ ጽሑፍ፡- ከቀደመው R1 ስሪት በመነሳት የተሻሻለው R1 ሞዴል ለድርሰት፣ ልቦለድ እና የስድ ፅሁፍ ስልቶች የበለጠ ተመቻችቷል፣ ይህም ረዘም ያለና በመዋቅራዊ ደረጃ የተሟሉ ስራዎችን እንዲያመነጭ በማስቻል ከሰው ምርጫዎች ጋር ይበልጥ የተጣጣመ የአጻጻፍ ስልት እያቀረበ ነው።
  • የመሳሪያ ጥሪ፡ DeepSeek-R1-0528 የመሳሪያ ጥሪን ይደግፋል (የመሳሪያ ጥሪ በአስተሳሰብ አይደገፍም)። የአሁኑ የሞዴል ታው-ቤንች የግምገማ ውጤቶች ለአየር መንገድ 53.5% እና ለችርቻሮ 63.9% ሲሆኑ ከOpenAI o1-high ጋር ሲነፃፀሩ ግን አሁንም ከ o3-High እና Claude 4 Sonnet ኋላ ቀር ናቸው።

ምሳሌው በLobeChat በኩል DeepSeek-R1-0528 የመሳሪያ ጥሪ አቅምን በመጠቀም የመነጨውን የድር መጣጥፍ ማጠቃለያ ያሳያል። በተጨማሪም፣ DeepSeek-R1-0528 እንደ የፊት-መጨረሻ ኮድ ማመንጨት እና ሚና መጫወት ባሉ አካባቢዎች ተዘምኗል እና ተሻሽሏል።

ምሳሌው በድረ-ገጽ ላይ DeepSeek-R1-0528 በመጥራት HTML/CSS/JavaScript ን በመጠቀም የተሰራ ዘመናዊ እና አነስተኛ የቃል ካርድ መተግበሪያን ያሳያል።

የDeepSeek-R1-0528 ማሻሻያ ቁልፍ ድምቀቶች

  • ከGoogle ሞዴሎች ጋር የሚወዳደር ጥልቅ የማመዛዘን ችሎታዎች
  • የጽሑፍ ማመንጨት ማመቻቸት፡ የበለጠ ተፈጥሯዊ እና የተሻለ ቅርጸት ያለው
  • ልዩ የማመዛዘን ዘይቤ: ፈጣን ብቻ ሳይሆን የበለጠ ጥብቅ
  • የረዥም ጊዜ አስተሳሰብ ድጋፍ፡ የአንድ ተግባር ሂደት ጊዜ ከ30-60 ደቂቃ ሊደርስ ይችላል።

የአዲሱ የDeepSeek-R1 አቅም በእኛ ተፈትኗል። ምንም እንኳን የ"አነስተኛ ስሪት" ማሻሻያ ቢሆንም አፈፃፀሙ ‹በተለይ› ተሻሽሏል።

በተለይም ከፕሮግራም አወጣጥ ችሎታዎች አንጻር ሲታይ, ከ Claude 4 እና Gemini 2.5 Pro ጋር እኩል የሆነ ወይም እኩል የሆነ ይመስላል. ሁሉም ጥያቄዎች “አንድ-ምት” ናቸው፣ ምንም ማሻሻያ አያስፈልጋቸውም! እና አቅሙን ለማሳየት በድር አሳሽ ውስጥ በቀጥታ ሊሰራ ይችላል።

የአዲሱ DeepSeek-R1 ስሪት የማሰብ ሂደት የበለጠ የተረጋጋ እንደሆነ በግልፅ ሊሰማዎት ይችላል።

መልሱን ለማወቅ የሚፈልጉትን ማንኛውንም ጥያቄ deepseek-R1 መጠየቅ ይችላሉ፣ጥያቄዎ ትንሽ ትርጉም የሌለው ቢሆንም፣ አሁንም በጥንቃቄ ያስባል እና አመክንዮውን ያደራጃል። በጣም የቅርብ ጊዜውን deepseek-R1 ሞዴል እንድትሞክሩ እንመክራለን።

የኤፒአይ ማዘመን መረጃ

ኤፒአይ ተዘምኗል፣ ነገር ግን በይነገጽ እና የጥሪ ዘዴዎች አልተቀየሩም። አዲሱ R1 API አሁንም የሞዴሉን የአስተሳሰብ ሂደት መመልከትን ይደግፋል እና አሁን ደግሞ የተግባር ጥሪን እና JsonOutputን ይደግፋል።

የdeepseek ቡድን የ max_tokens መለኪያን ትርጉም በአዲሱ R1 ኤፒአይ አስተካክሏል፡ max_tokens አሁን የአምሳያው ነጠላ ውፅዓት አጠቃላይ ርዝመትን ይገድባል (የአስተሳሰብ ሂደቱንም ጨምሮ) በነባሪ እሴት 32K እና ቢበዛ 64K። የኤፒአይ ተጠቃሚዎች ውፅዓት ያለጊዜው እንዳይቆራረጥ ለመከላከል የ max_tokens መለኪያውን በፍጥነት እንዲያስተካክሉ ይመከራሉ።

የ R1 ሞዴልን ለመጠቀም ዝርዝር መመሪያዎችን ለማግኘት እባክዎን ይመልከቱ deepseek R1 API መመሪያ:

ከዚህ R1 ዝማኔ በኋላ፣ በኦፊሴላዊው ድህረ ገጽ፣ ሚኒ ፕሮግራም፣ መተግበሪያ እና ኤፒአይ ላይ ያለው የሞዴል አውድ ርዝመት 64 ኪ ይቆያል። ተጠቃሚዎች ረዘም ያለ የአውድ ርዝመት ከሚያስፈልጋቸው የR1-0528 ሞዴል የክፍት ምንጭ ስሪቱን ከሌሎች የሶስተኛ ወገን መድረኮች 128K አውድ ርዝመት ጋር መደወል ይችላሉ።

ምንጭ ክፈት

DeepSeek-R1-0528 ከቀድሞው DeepSeek-R1 ጋር ተመሳሳይ የመሠረት ሞዴል ይጠቀማል፣ በድህረ-ሥልጠና ዘዴዎች ላይ የተደረጉ ማሻሻያዎች ብቻ።

በግል በሚሰማሩበት ጊዜ የፍተሻ ነጥቡ እና tokenizer_config.json (ከመሳሪያ ጥሪ ጋር የተያያዙ ለውጦች) ብቻ መዘመን አለባቸው። የሞዴል መለኪያዎች 685B ናቸው (ከዚህ ውስጥ 14B ለኤምቲፒ ንብርብር ነው) እና የክፍት ምንጭ እትም 128 ኪ.

ተመሳሳይ ልጥፎች

ምላሽ ይስጡ

ኢ-ፖስታ አድራሻወ ይፋ አይደረግም። መሞላት ያለባቸው መስኮች * ምልክት አላቸው