DeepSeek R1 በፈጠራ አጻጻፍ ፈተና አንደኛ ወጥቷል፣ እና o3 mini ከ o1 mini የባሰ ነበር!

DeepSeek R1 በፈጠራ የአጭር ልቦለድ ፅሁፍ ቤንችማርክ ፈተና ያለፈውን አውራ ተጫዋች ክላውድ 3.5 ሶኔትን በተሳካ ሁኔታ በማለፍ ሻምፒዮንነቱን አሸንፏል።

ማውጫ

የቤንችማርክ ፈተና

በተመራማሪ Lech Mazur የተነደፈው የቤንችማርክ ፈተና የእርስዎ አማካይ የጽሁፍ ውድድር አይደለም።

እያንዳንዱ AI ሞዴል 500 አጫጭር ልቦለዶችን እንዲያጠናቅቅ ያስፈልጋል፣ እና እያንዳንዱ ታሪክ በዘፈቀደ የተመደቡ 10 ክፍሎችን በጥበብ ማካተት ነበረበት። ይህ ለ AI ፈታኝ የሆነ ክፍት የሆነ የፅሁፍ ተግባር ነበር፣ ይህም የተሟላ ታሪክን ብቻ ሳይሆን ሁሉም የተመደቡ አካላት በተፈጥሮ የተዋሃዱ መሆናቸውን ያረጋግጣል።

የዳኝነት ዘዴ

ይህ የቤንችማርክ ፈተና ልዩ የውጤት አሰጣጥ ስርዓት ይጠቀማል፡ ስድስት ከፍተኛ የቋንቋ ሞዴሎች እንደ ዳኛ ሆነው ያገለግላሉ፣ የታሪኩን የተለያዩ ገጽታዎች ያስመዘገቡ። በሌላ አገላለጽ የ AI ኢንዱስትሪ መሪዎች በ AI ራሱ ላይ እየፈረዱ ነው, ይህም በአጠቃላይ በአንጻራዊነት ፍትሃዊ እና ስልታዊ የግምገማ መስፈርት ያቀርባል.

የሙከራ ይዘት

ከላይ ያለው ገበታ በፈጠራ አጻጻፍ ማመሳከሪያ ፈተና ውስጥ የውጤት አስቆጣሪዎችን ተዛምዶ ትንተና ያሳያል። DeepSeek ከሌሎች ዋና ዋና ሞዴሎች (ክላውድ ፣ GPT-4o ፣ ጀሚኒ እና ግሮክ) ጋር ከ 0.93 በላይ የመዛመጃ ቅንጅት አለው ፣ ይህ የሚያመለክተው የፈጠራ ጽሑፍን ጥራት በሚገመግምበት ጊዜ ከሌሎች ዋና ሞዴሎች ጋር በጣም ወጥ የሆነ የፍርድ መመዘኛዎች አሉት ፣ ይህም በዚህ ውስጥ አስተማማኝነቱን በተዘዋዋሪ ያረጋግጣል ። ፈተና

ከላይ ያለው ገበታ የፈጠራ አጭር ልቦለድ አጻጻፍ የቤንችማርክ ፈተና ውጤቶችን ያሳያል። እያንዳንዱ የ AI ሞዴል 500 ታሪኮችን ለመጻፍ ይፈለጋል, እያንዳንዳቸው 10 የተገለጹ የዘፈቀደ አካላትን መያዝ አለባቸው. በገበታው ላይ ያሉት ነጥቦች የእያንዳንዱ ተሳታፊ AI ሞዴል ለተለያዩ የውጤት መስጫ ሞዴሎች (በተለያዩ ቀለማት የተወከለው) የውጤት ስርጭትን ያሳያል።

በፈተና ውስጥ, ጥልቅ ኤስ ኢክ (ጥቁር ሰማያዊ ነጥቦች) ጥሩ አፈጻጸም አሳይቷል፣ አብዛኞቹ የውጤት ነጥቦቹ በገበታው የላይኛው አጋማሽ ላይ ያተኮሩ እና በአንጻራዊ ሁኔታ የተጠናከሩ፣ የተረጋጋ እና ከፍተኛ የመፃፍ ችሎታን ያሳያሉ።

ይህ አስደናቂ አፈጻጸም ያለፈውን ሻምፒዮን ክላውድ 3.5 ሶኔትን በተሳካ ሁኔታ በማለፍ አዲሱ የቤንችማርክ ፈተና መሪ ለመሆን አስችሎታል።

በዚህ ገበታ ውስጥ፣ እያንዳንዱ ረድፍ የኤአይአይ ሞዴልን ይወክላል፣ እና እያንዳንዱ አምድ የግምገማ ልኬትን ይወክላል (እንደ ገፀ ባህሪ፣ የንድፍ ወጥነት፣ ወዘተ.)። DeepSeek በገበታው የላይኛው መሃል ላይ ይገኛል፣ በአጠቃላይ ብርቱካንማ ቢጫ ቀለም ያለው ሲሆን ይህም በአብዛኛዎቹ የግምገማ ልኬቶች ጥሩ ውጤት እንዳስመዘገበ ያሳያል። በተለይም በአፈጻጸም (Q6)፣ በባህሪይ (TA) እና በሴራ ልማት (ቲጄ) ቁልፍ ልኬቶች ወደ 8 የሚጠጉ ከፍተኛ ውጤቶችን አስመዝግቧል። ምንም እንኳን በግለሰብ ልኬቶች ውስጥ በጣም ደማቅ ቢጫ ላይሆን ይችላል, ምንም ግልጽ ድክመቶች የሉትም.

በገበታው ላይ እንደሚታየው፣ የDeepSeek ታሪክ ውጤቶች በአብዛኛው በ7 እና በ9 ነጥብ መካከል ይሰራጫሉ፣ እና ስርጭቱ በአንፃራዊነት የተጠናከረ ነው። የሚገርመው፣ የአዝማሚያ መስመር ከሞላ ጎደል አግድም ነው፣ ይህም የDeepSeek ታሪክ ጥራት ከታሪኩ ርዝመት ጋር በቅርበት እንደማይገናኝ ያሳያል። በሌላ አገላለጽ፣ ረጅም ታሪክም ሆነ አጭር ልቦለድ እየፃፈ፣ DeepSeek በተከታታይ ከፍተኛ ጥራት ያለው ውፅዓት ማቆየት ይችላል። ይህ የሚያሳየው ነው። DeepSeek ሲፈጠር ከብዛት በላይ በጥራት ላይ ያተኩራል፣ እና ጥሩ አፈጻጸምን ማስጠበቅ ይችላል። በተለያየ ርዝመት ታሪኮች ውስጥ.

ለምን አደረገ DeepSeek R1 አሸንፏል?

ከፈተና ውጤቶቹ በመነሳት DeepSeek R1 በሚያስደንቅ ሁኔታ አከናውኗል፡-

አጠቃላይ የታሪክ ውህደት ችሎታዎች: R1 ከተለያዩ የታሪክ አካላት ጥምረት ጋር ሲገናኝ አስደናቂ ተለዋዋጭነት እና ፈጠራ አሳይቷል።
የተረጋጋ የውጤት ጥራት: ከነጥብ ስርጭት ገበታ በመመዘን R1 ከፍተኛ አማካይ ነጥብ ብቻ ሳይሆን የተረጋጋ አፈጻጸምም አነስተኛ መዋዠቅ ነበረው።
የላቀ የፈጠራ አፈፃፀምበዚህ የቤንችማርክ ፈተና፣ በR1 የተፈጠሩት ታሪኮች በአጠቃላይ ከሦስቱ ከፍተኛ ደረጃ ተሰጥቷቸዋል፣ ይህም በፈጠራ ጽሑፍ ውስጥ ያለውን የላቀ ችሎታ ያረጋግጣል።

ሌሎች ተወዳዳሪዎች እንዴት ሠሩ?

በDeepSeek R1 እና Claude 3.5 Sonnet መካከል ካለው አስደሳች ትርኢት በተጨማሪ የሌሎች ሞዴሎች አፈፃፀም ትኩረት ሊሰጠው የሚገባ ጉዳይ ነው።

የጌሚኒ ተከታታይ ጥሩ አፈጻጸም አሳይቷል።
የላማ 3.x ተከታታይ በዚህ ፈተና ትንሽ ታግለዋል።
ኦ3-ሚኒ ጥሩ አፈጻጸም አላሳየም፣ 22ኛ ደረጃን ይዟል

በመጨረሻ

በዚህ ሙከራ ውስጥ የDeepSeek R1 ግኝት የኤአይአይን በፈጠራ መስክ ማለቂያ የሌለውን እድሎችን አሳይቶናል። ምንም እንኳን AI ፍጥረት አሁንም ቀጣይነት ባለው መሻሻል ላይ ቢሆንም, እንደዚህ አይነት ውጤቶች ለወደፊቱ በሚጠበቁ ነገሮች እንዲሞሉ አድርጎናል.

ስለፈተናው ዝርዝሮች የበለጠ ለማወቅ ለሚፈልጉ ሙሉ መረጃ እና የምርጥ ታሪኮች ምሳሌዎችን ለማግኘት የሌች ማዙርን GitHub መጎብኘት ይችላሉ። በ AI የፈጠራ ጽሑፍ ውስጥ ተጨማሪ ግኝቶችን አብረን እንጠብቅ!

ተመሳሳይ ልጥፎች

DeepSeek R1 በፈጠራ አጻጻፍ ፈተና አንደኛ ወጥቷል፣ እና o3 mini ከ o1 mini የባሰ ነበር!

የቤንችማርክ ፈተና

የዳኝነት ዘዴ

የሙከራ ይዘት

ለምን አደረገ DeepSeek R1 አሸንፏል?

ሌሎች ተወዳዳሪዎች እንዴት ሠሩ?

በመጨረሻ

ትልቅ የቋንቋ ሞዴል አስተዳደር ቅርሶች እንደ DeepSeek፡ Cherry Studio፣ Chatbox፣ AnythingLLM፣ የእርስዎ ቅልጥፍና አፋጣኝ ማነው?

DeepSeek R1 የወረቀት ትርጓሜ እና ቁልፍ ቴክኒካዊ ነጥቦች

Cathie Wood: DeepSeek የወጪ ቅነሳ ሂደቱን ማፋጠን ብቻ ነው; ከታላቁ የኢኮኖሚ ድቀት ጋር የሚወዳደር እጅግ የተጠናከረ የገበያ መዋቅር ይለወጣል

ወደ DeepSeek-R1-32B ቅርብ ነው እና Fei-Fei Li's s1ን ያደቃል! ዩሲ በርክሌይ እና ሌሎች ክፍት ምንጭ አዲስ የ SOTA አመላካች ሞዴሎች

Deepseek ምን ሊያሳካ ይችላል? OpenAI እንኳን ማድረግ አይችልም?

Altman: ስለ ክፍት ምንጭ AI ተሳስተናል! DeepSeek OpenAI ያነሰ ጥቅም እንዲኖረው አድርጎታል፣ እና ቀጣዩ GPT-5 ነው።

ምላሽ ይስጡ ምላሽ ሰርዝ