DeepSeek R1 ilikuja kwanza katika jaribio la uandishi wa ubunifu, na o3 mini ilikuwa mbaya zaidi kuliko o1 mini!

DeepSeek R1 ilishinda ubingwa katika jaribio la kuigwa la uandishi wa hadithi fupi za ubunifu, na kumpita kwa mafanikio mchezaji mkuu wa awali Claude 3.5 Sonnet!

Jedwali la Yaliyomo

Mtihani wa benchmark

Jaribio la kuigwa lililoundwa na mtafiti Lech Mazur sio shindano lako la wastani la uandishi.

Kila kielelezo cha AI kilihitajika kukamilisha hadithi fupi 500, na kila hadithi ilibidi ijumuishe kwa ustadi vipengele 10 vilivyotolewa kwa nasibu. Hii ilikuwa kazi ngumu ya uandishi iliyo wazi kwa AI, ambayo haikuhitaji tu hadithi kamili, lakini pia ilihakikisha kuwa vipengele vyote vilivyopewa vimeunganishwa kwa kawaida.

Mbinu ya kuhukumu

Jaribio hili la kuigwa hutumia mfumo wa kipekee wa alama: miundo sita ya lugha bora hufanya kama waamuzi, ikipata vipengele mbalimbali vya hadithi. Kwa maneno mengine, viongozi wa tasnia ya AI wanahukumu AI yenyewe, ambayo kwa ujumla hutoa kiwango cha tathmini cha haki na cha utaratibu.

Maudhui ya mtihani

Chati iliyo hapo juu inaonyesha uchanganuzi wa uunganisho wa wafungaji alama katika jaribio la benchmark la uandishi wa ubunifu. DeepSeek ina mgawo wa uwiano wa zaidi ya 0.93 na miundo mingine ya kawaida (Claude, GPT-4o, Gemini na Grok), ikionyesha kuwa ina vigezo thabiti vya hukumu na mifano mingine ya juu wakati wa kuhukumu ubora wa maandishi ya ubunifu, ambayo inathibitisha moja kwa moja kuegemea kwake katika hili. mtihani.

Chati iliyo hapo juu inaonyesha matokeo ya jaribio la kigezo la uandishi wa hadithi fupi. Kila mtindo wa AI ulihitajika kuandika hadithi 500, ambazo kila moja lazima iwe na vipengele 10 vilivyoainishwa vya nasibu. Pointi kwenye chati zinaonyesha usambazaji wa alama za kila muundo wa AI unaoshiriki kwa miundo tofauti ya alama (inayowakilishwa na rangi tofauti).

Katika mtihani, Kina S ek (alama za samawati iliyokolea) ilifanya vyema, huku alama zake nyingi zikiwa zimejikita katika nusu ya juu ya chati na kujilimbikizia kiasi, ikionyesha uwezo thabiti na wa juu wa uandishi wa ubunifu.

Utendaji huu bora umeiwezesha kushinda bingwa wa awali, Claude 3.5 Sonnet, na kuwa kiongozi mpya wa majaribio.

Katika chati hii, kila safu mlalo inawakilisha muundo wa AI, na kila safu wima inawakilisha kipimo cha tathmini (kama vile wahusika, upatanifu wa njama, n.k.). DeepSeek iko sehemu ya juu ya katikati ya chati, ikiwa na rangi ya manjano-machungwa kwa ujumla, inayoonyesha kuwa imepata matokeo bora katika vipimo vingi vya tathmini. Hasa, ilipata alama za juu za karibu pointi 8 katika vipimo muhimu vya utekelezaji (Q6), sifa (TA), na ukuzaji wa njama (TJ). Ingawa inaweza isiwe ya manjano angavu zaidi katika vipimo vya mtu binafsi, haina udhaifu wowote dhahiri.

Kama unavyoona kwenye chati, alama za hadithi za DeepSeek husambazwa zaidi kati ya pointi 7 na 9, na usambazaji umekolezwa kiasi. Jambo la kufurahisha, mwelekeo wake unakaribia mlalo, ikionyesha kuwa ubora wa hadithi ya DeepSeek hauhusiani kwa karibu na urefu wa hadithi. Kwa maneno mengine, iwe ni kuandika hadithi ndefu au hadithi fupi, DeepSeek inaweza kudumisha matokeo ya ubora wa juu mara kwa mara. Hii inaonyesha kwamba DeepSeek huzingatia zaidi ubora kuliko wingi wakati wa kuunda, na inaweza kudumisha utendakazi bora katika hadithi za urefu tofauti.

Kwa nini Ushindi wa DeepSeek R1?

Kwa kuzingatia matokeo ya jaribio, DeepSeek R1 ilifanya kazi ya kushangaza:

Uwezo wa kina wa ujumuishaji wa hadithi: R1 ilionyesha unyumbufu wa ajabu na ubunifu wakati wa kushughulikia michanganyiko tofauti ya vipengele vya hadithi.
Ubora wa pato thabiti: Kwa kuzingatia chati ya usambazaji wa alama, R1 haikuwa tu na alama ya juu ya wastani, lakini pia utendaji thabiti na kushuka kwa thamani kidogo.
Utendaji bora wa ubunifu: Katika jaribio hili la kuigwa, hadithi zilizoundwa na R1 zilikadiriwa kati ya tatu bora kwa ujumla, ambayo inathibitisha uwezo wake bora katika uandishi wa ubunifu.

Washiriki wengine walifanyaje?

Mbali na pambano la kusisimua kati ya DeepSeek R1 na Claude 3.5 Sonnet, utendakazi wa miundo mingine pia inafaa kuzingatiwa:

Mfululizo wa Gemini ulifanya vizuri
Mfululizo wa Llama 3.x ulijitahidi kidogo katika jaribio hili
O3-mini haikufanya vyema, ikishika nafasi ya 22

Hatimaye

Mafanikio ya DeepSeek R1 katika jaribio hili yametuonyesha uwezekano usio na kikomo wa AI katika uwanja wa ubunifu. Ingawa uundaji wa AI bado uko kwenye njia ya uboreshaji unaoendelea, matokeo kama haya tayari yametufanya tujae matarajio ya siku zijazo.

Kwa wale wanaotaka kujifunza zaidi kuhusu maelezo ya jaribio, unaweza kutembelea GitHub ya Lech Mazur kwa data kamili na mifano ya hadithi bora zaidi. Hebu tutarajie mafanikio zaidi katika uandishi wa ubunifu wa AI pamoja!

Machapisho Yanayofanana

DeepSeek R1 ilikuja kwanza katika jaribio la uandishi wa ubunifu, na o3 mini ilikuwa mbaya zaidi kuliko o1 mini!

Mtihani wa benchmark

Mbinu ya kuhukumu

Maudhui ya mtihani

Kwa nini Ushindi wa DeepSeek R1?

Washiriki wengine walifanyaje?

Hatimaye

Iko karibu na DeepSeek-R1-32B na kubomoa s1 ya Fei-Fei Li! UC Berkeley na mifano mingine ya wazi ya vyanzo vipya vya uelekezaji vya SOTA

Ulinganisho wa kina wa o3-mini na DeepSeek R1 ya OpenAI mpya

Gemini 2.0 inatawala chati, huku DeepSeek V3 inalia kwa bei yake, na bingwa mpya wa gharama nafuu anazaliwa!

Vizalia vya Kubwa vya usimamizi wa Muundo wa Lugha kama vile DeepSeek: Cherry Studio, Chatbox, AnythingLLM, ni nani kiongeza kasi chako cha ufanisi?

mazungumzo ya a16z na Mkurugenzi Mtendaji wa miaka 27: Wakala wa AI ana athari kubwa ya uboreshaji, na bei ya muda mrefu itahusishwa na gharama za wafanyikazi.

Ufafanuzi wa karatasi wa DeepSeek R1 & pointi muhimu za kiufundi

Toa Jibu Ghairi kujibu