Katika siku zijazo, kutakuwa na innovation zaidi na ngumu zaidi. Huenda isiwe rahisi kuelewa sasa, kwa sababu kundi zima la kijamii linahitaji kuelimishwa na ukweli. Wakati jamii hii inaruhusu watu wanaovumbua hardcore kufanikiwa, mawazo ya pamoja yatabadilika. Tunahitaji tu rundo la ukweli na mchakato. - Liang Wenfeng, mwanzilishi wa DeepSeek
Katika siku za hivi majuzi, DeepSeek imelipuka duniani kote, lakini kwa sababu kampuni hiyo ina ufunguo wa chini sana na haijatoa matangazo yoyote, umma unajua kidogo sana kuhusu kampuni hii ya teknolojia yenye uwezo mkubwa - iwe ni msingi wake wa kuanzisha, wigo wa biashara. , au mpangilio wa bidhaa.
Baada ya kumaliza kuchagua nyenzo zote, niliandika nakala hii
Ni nini asili ya wachezaji wa sasa wa AI, wanafanya nini, na wanaajiri nani?
na pengine muhtasari kamili wa kihistoria wa DeepSeek.
Wakati huu mwaka jana, rafiki kutoka Magic Cube Quant alinijia na kuniuliza, "Je, unataka kujenga mwanamitindo mkubwa nchini China?" Na nilitumia tu mchana kunywa kahawa. Kama inavyotarajiwa, maisha bado inategemea uchaguzi.
The Magic Cube Quant anayetajwa hapa ndiye mwekezaji, au kampuni mama, ya DeepSeek.
Kinachojulikana kama "quant" ni taasisi ya uwekezaji ambayo hufanya maamuzi si kwa nguvu za binadamu lakini kwa algoriti. Kuanzishwa kwa Quant Fantasy si muda mrefu, kuanzia mwaka wa 2015. Kufikia 2021, ilipokuwa na umri wa miaka sita, kiwango cha usimamizi wa mali cha Quant Fantasy kilikuwa kimezidi bilioni 100, na ilisifiwa kama mmoja wa "wafalme wanne" wa China.
Mwanzilishi wa Fantasy Square, Liang Wenfeng, ambaye pia ni mwanzilishi wa DeepSeek, ni kiongozi wa kifedha "asiye tawala" aliyezaliwa katika miaka ya 1980: hana uzoefu wa masomo ya ng'ambo, si mshindi wa shindano la Olimpiki, na alihitimu kutoka Idara ya Uhandisi wa Kielektroniki katika Chuo Kikuu cha Zhejiang, akibobea katika akili ya bandia. Yeye ni mtaalam wa teknolojia ya asili ambaye hufanya kazi kwa njia ya chini, "kusoma karatasi, kuandika kanuni, na kushiriki katika majadiliano ya kikundi" kila siku.
Liang Wenfeng hana tabia za mfanyabiashara wa kitamaduni, lakini anafanana zaidi na "mtaalamu wa teknolojia" safi.. Wataalamu wengi wa tasnia na watafiti wa DeepSeek wamempa Liang Wenfeng sifa za juu sana: "mtu ambaye ana uwezo mkubwa wa uhandisi wa infra na uwezo wa utafiti wa mfano, na pia anaweza kuhamasisha rasilimali," "mtu anayeweza kufanya uamuzi sahihi kutoka kiwango cha juu, lakini pia bora. kwa maelezo juu ya watafiti walio mstari wa mbele,” na pia ana "uwezo wa kutisha wa kujifunza."
Muda mrefu kabla ya DeepSeek kuanzishwa, Huanfang alikuwa tayari ameanza kufanya mipango ya muda mrefu katika tasnia ya AI.. Mnamo Mei 2023, Liang Wenfeng alitaja katika mahojiano na Darksurge: "Baada ya OpenAI kutoa GPT3 mwaka wa 2020, mwelekeo wa maendeleo ya AI umekuwa wazi sana, na nguvu za kompyuta zitakuwa kipengele muhimu; lakini hata mwaka wa 2021, tulipowekeza katika ujenzi wa Firefly 2, watu wengi bado hawakuweza kuielewa.”
Kulingana na uamuzi huu, Huanfang alianza kujenga miundombinu yake ya kompyuta. "Kuanzia kadi 1 ya kwanza, hadi kadi 100 mnamo 2015, kadi 1,000 mnamo 2019, na kisha kadi 10,000, mchakato huu ulifanyika polepole. Kabla ya kadi mia chache, tulikaribishwa katika IDC. Kiwango kilipoongezeka, ukaribishaji hatukuweza tena kukidhi mahitaji, kwa hiyo tukaanza kujenga chumba chetu cha kompyuta.
Baadaye, Finance Eleven iliripoti, "Hakuna zaidi ya watano makampuni ya ndani yenye GPU zaidi ya 10,000, na pamoja na watengenezaji wachache wakuu, pia ni pamoja na kampuni ya fedha inayoitwa Magic Cube..” Inaaminika kwa ujumla kuwa chips 10,000 za Nvidia A100 ndio kizingiti cha nguvu ya kompyuta kutoa mafunzo kwa mifano kubwa.
Katika mahojiano ya awali, Liang Wenfeng pia alitaja jambo la kuvutia: watu wengi wangefikiri kuna mantiki ya biashara isiyojulikana nyuma yake, lakini kwa kweli, inaendeshwa hasa na udadisi.
DeepSeekkukutana kwa mara ya kwanza
Katika mahojiano na Darksurge mnamo Mei 2023, alipoulizwa "Si muda mrefu uliopita, Huanfang alitangaza uamuzi wake wa kutengeneza mifano mikubwa, kwa nini mfuko wa kiasi ungefanya jambo kama hilo?"
Jibu la Liang Wenfeng lilikuwa kubwa: “Uamuzi wetu wa kujenga mtindo mkubwa hauna uhusiano wowote na quantification au fedha. Tumeanzisha kampuni mpya iitwayo DeepSeek kufanya hivi. Wengi wa washiriki wakuu wa timu huko Mianfang wanahusika katika akili bandia. Wakati huo, tulijaribu hali nyingi na hatimaye kukaa juu ya fedha, ambayo ni ngumu ya kutosha. Ujuzi wa akili bandia unaweza kuwa moja wapo ya mambo magumu zaidi kufikia, kwa hivyo kwetu, ni swali la jinsi ya kuifanya, sio kwa nini.
Haisukumwi na masilahi ya kibiashara au kufuata mwelekeo wa soko, lakini inasukumwa tu na hamu ya kuchunguza teknolojia ya AGI yenyewe na harakati zinazoendelea za "jambo muhimu na gumu zaidi," jina "DeepSeek" lilithibitishwa rasmi Mei 2023. Mnamo Julai 17, 2023, "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." ilijumuishwa.
Washa Tarehe 2 Novemba 2023, DeepSeek iliwasilisha jibu lake la kwanza: DeepSeek Coder, muundo mkubwa wa msimbo huria. Muundo huu unajumuisha saizi nyingi kama vile 1B, 7B, na 33B. Maudhui ya chanzo huria ni pamoja na modeli ya Msingi na muundo wa kurekebisha amri.
Wakati huo, kati ya mifano ya chanzo wazi, CodeLlama ya Meta ilikuwa alama ya tasnia. Hata hivyo, mara baada ya DeepSeek Coder kutolewa, ilionyesha nafasi ya kuongoza yenye vipengele vingi ikilinganishwa na CodeLlama: katika utengenezaji wa msimbo, HumanEval ilikuwa 9.3% mbele, MBPP ilikuwa 10.8% mbele, na DS-1000 ilikuwa 5.9% mbele.
Kumbuka kwamba DeepSeek Coder ni modeli ya 7B, wakati CodeLlama ni modeli ya 34B. Kwa kuongeza, modeli ya DeepSeek Coder, baada ya kupangwa kwa maelekezo, imepita kwa kiasi kikubwa GPT3.5-Turbo.
Sio tu kwamba utengenezaji wa msimbo unavutia, lakini Kodere ya DeepSeek pia inaonyesha misuli yake katika hisabati na hoja.
Siku tatu baadaye, tarehe 5 Novemba 2023, DeepSeek ilitoa kiasi kikubwa cha maudhui ya kuajiri kupitia akaunti yake ya umma ya WeChat, ikiwa ni pamoja na nafasi kama vile mwanafunzi wa mfano mkuu wa AGI, mtaalam wa data, talanta ya usanifu wa data, mhandisi mkuu wa ukusanyaji wa data, utafiti wa kina na maendeleo. mhandisi, nk, na kuanza kupanua timu kikamilifu.
Kama Liang Wenfeng alisema, DeepSeek "mahitaji ya lazima-kuwa nayo" kwa ajili ya kuajiri vipaji ni "shauku na ujuzi thabiti wa msingi", na alisisitiza hilo "Uvumbuzi unahitaji uingiliaji kati na usimamizi mdogo iwezekanavyo, ili kila mtu awe na uhuru wa kufanya makosa na kujaribu mambo mapya. Ubunifu mara nyingi hutoka ndani, si kwa mipango ya kimakusudi, na kwa hakika hautokani na kufundisha.”
Mifano hutolewa mara kwa mara, na chanzo wazi kinafanywa
Baada ya DeepSeek Coder kufanya mkondo, DeepSeek ilielekeza umakini wake kwenye uwanja mkuu wa vita: mifano ya lugha ya jumla.
Washa Tarehe 29 Novemba 2023, DeepSeek ilitoa modeli yake ya kwanza ya lugha kubwa yenye madhumuni ya jumla, DeepSeek LLM 67B. Muundo huu umewekwa alama dhidi ya muundo wa Meta wa LLaMA2 70B wa kiwango sawa na umefanya vyema katika takriban orodha 20 za tathmini ya umma katika Kichina na Kiingereza. Hasa, uwezo wake wa kufikiri, hisabati, na programu (kwa mfano, HumanEval, MATH, CEval, na CMMLU) ni bora.
DeepSeek LLM 67B pia imechagua njia huria na inasaidia matumizi ya kibiashara. Ili kuonyesha zaidi uaminifu wake na azimio lake la kufungua chanzo, DeepSeek, kwa namna isiyo na kifani, imefungua kwa wakati mmoja modeli mbili za mizani tofauti, 7B na 67B, na hata kutangaza hadharani vituo tisa vya ukaguzi vilivyotolewa wakati wa mchakato wa mafunzo ya kielelezo ili watafiti kupakua na kutumia. Uendeshaji wa aina hii, ambao ni sawa na "kufundisha kila kitu", ni nadra sana katika jumuiya nzima ya chanzo huria.
Ili kutathmini kwa kina na kwa ukamilifu uwezo halisi wa DeepSeek LLM 67B, timu ya utafiti ya DeepSeek pia ilibuni kwa makini mfululizo wa "maswali mapya" kwa ajili ya "kupima mfadhaiko". Maswali haya yanahusu majaribio ya kiwango cha juu, ya ubaguzi wa juu kama vile maswali ya hesabu ya shule ya upili ya Hungaria, amri ya Google ifuatayo seti za tathmini na maswali ya mashindano ya kila wiki ya LeetCode. Matokeo ya mtihani yalikuwa ya kutia moyo. DeepSeek LLM 67B ilionyesha uwezo wa ajabu katika suala la uwezo wake wa kufanya jumla zaidi ya sampuli, na utendaji wake wa jumla ulikuwa karibu hata na ule wa muundo wa juu zaidi wa GPT-4 wakati huo.
Washa Tarehe 18 Desemba 2023, DeepSeek ilifungua chanzo cha muundo wa Vincent 3D DreamCraft3D: inaweza kutoa miundo ya hali ya juu ya 3D kutoka kwa sentensi, kufikia kiwango kikubwa kutoka kwa ndege za 2D hadi nafasi ya 3D katika AIGC. Kwa mfano, ikiwa mtumiaji ataingiza: "Kukimbia msituni, picha ya mseto ya kuchekesha ya kichwa cha nguruwe na mwili wa Mfalme wa Tumbili," DreamCraft3D inaweza kutoa maudhui ya ubora wa juu:
Kimsingi, modeli kwanza inakamilisha mchoro wa Venn, na kisha kuongeza muundo wa jumla wa kijiometri kulingana na ramani ya dhana ya 2D:
Katika tathmini ya kibinafsi iliyofuata, zaidi ya watumiaji 90% walisema DreamCraft3D ilikuwa na faida katika ubora wa kizazi ikilinganishwa na mbinu za kizazi cha awali.
Mnamo Januari 7, 2024, DeepSeek ilitoa ripoti ya kiufundi ya DeepSeek LLM 67B. Ripoti hii ya kurasa 40+ ina maelezo mengi ya DeepSeek LLM 67B, ikiwa ni pamoja na sheria za kuongeza viwango zilizojiundia, maelezo kamili ya vitendo ya upatanishi wa kielelezo, na mfumo wa kina wa kutathmini uwezo wa AGI.
Washa Tarehe 11 Januari 2024, DeepSeek ilitoa modeli kubwa ya kwanza ya MoE (usanifu mseto wa kitaalam) nchini Uchina, DeepSeekMoE: usanifu mpya kabisa unaotumia Kichina na Kiingereza na ni bure kwa matumizi ya kibiashara. Usanifu wa MoE kwa ujumla ulizingatiwa wakati huo kuwa ufunguo wa mafanikio ya utendaji ya OpenAI GPT-4. Usanifu wa DeepSeek uliojiendeleza wa MoE unaongoza kwa mizani nyingi kama vile 2B, 16B, na 145B, na ujumuishaji wake pia ni wa kupongezwa sana.
Mnamo Januari 25, 2024, DeepSeek ilitoa ripoti ya kiufundi ya DeepSeek Coder. Ripoti hii inatoa uchambuzi wa kina wa kiufundi wa data yake ya mafunzo, mbinu za mafunzo, na utendaji wa mfano. Katika ripoti hii, tunaweza kuona kwamba kwa mara ya kwanza, imeunda data ya msimbo wa kiwango cha ghala na kutumia upangaji wa kitolojia kuchanganua utegemezi kati ya faili, ikiboresha kwa kiasi kikubwa uwezo wa kuelewa faili-tofauti za umbali mrefu. Kwa upande wa mbinu za mafunzo, njia ya Kujaza-Katika-kati iliongezwa, ambayo iliboresha sana uwezo wa kukamilisha msimbo.
Mnamo Januari 30, 2024, mfumo huria wa DeepSeek ulizinduliwa rasmi, na huduma ya DeepSeek Large Model API ilianza kufanya majaribio. Jisajili ili upate tokeni milioni 10 bila malipo. Kiolesura kinaoana na kiolesura cha OpenAI API, na miundo miwili ya Chat/Coder inapatikana. Kwa wakati huu, DeepSeek ilianza kuchunguza njia ya mtoa huduma wa teknolojia pamoja na utafiti na maendeleo ya teknolojia.
Washa Februari 5, 2024, DeepSeek ilitoa muundo mwingine wa kikoa wima, DeepSeekMath, kielelezo cha hoja za kihisabati. Mtindo huu una vigezo vya 7B pekee, lakini uwezo wake wa kufikiri wa kihisabati ni karibu na ule wa GPT-4. Kwenye orodha iliyoidhinishwa ya kipimo cha MATH, inapita umati na inashinda idadi ya mifano ya programu huria yenye ukubwa wa vigezo kati ya 30B na 70B. Kutolewa kwa DeepSeekMath kunaonyesha kikamilifu nguvu za kiufundi za DeepSeek na mpangilio unaotazamia mbele katika utafiti na uundaji wa wima na mpangilio wake wa kuangalia mbele katika utafiti wa kielelezo na ukuzaji.
Washa Tarehe 28 Februari 2024, ili kupunguza zaidi wasiwasi wa wasanidi programu kuhusu kutumia miundo ya programu huria ya DeepSeek, DeepSeek ilitoa sera ya chanzo huria Maswali Yanayoulizwa Mara kwa Mara., ambayo hutoa majibu ya kina kwa maswali yanayoulizwa mara kwa mara kama vile utoaji leseni wa chanzo huria na vikwazo vya matumizi ya kibiashara. DeepSeek inakumbatia chanzo wazi chenye mtazamo wazi na wazi zaidi:
Washa Machi 11, 2024, DeepSeek ilitoa modeli kubwa ya aina nyingi DeepSeek-VL. Hili ni jaribio la awali la DeepSeek katika teknolojia ya modi nyingi za AI. Mfano ni 7B na 1.3B kwa ukubwa, na karatasi za mfano na za kiufundi zimefunguliwa kwa wakati mmoja.
Washa Machi 20, 2024, Huanfang AI & DeepSeek kwa mara nyingine tena walialikwa kushiriki katika mkutano wa NVIDIA GTC 2024, na mwanzilishi Liang Wenfeng alitoa hotuba kuu ya kiufundi. yenye mada "Upatanifu katika Utofauti: Kulinganisha na Kutenganisha Maadili ya Miundo Kubwa ya Lugha". Masuala kama vile "mgogoro kati ya mtindo wa thamani moja na jamii na utamaduni wa wingi," "kutenganishwa kwa upatanishi mkubwa wa thamani," na "changamoto za pande nyingi za upatanishi wa thamani uliotenganishwa" yalijadiliwa. Hii ilionyesha utunzaji wa kibinadamu wa DeepSeek na dhima ya kijamii kwa maendeleo ya AI, pamoja na utafiti wake wa kiteknolojia na maendeleo.
Mnamo Machi 2024, DeepSeek API ilizinduliwa rasmi huduma za kulipia, ambazo ziliwasha kabisa utangulizi wa vita vya bei katika soko kubwa la mfano la Uchina: Yuan 1 kwa tokeni za pembejeo milioni na yuan 2 kwa tokeni za pato milioni.
Mnamo 2024, DeepSeek ilifaulu kupitisha rekodi ya miundo mikubwa nchini Uchina, na kuondoa vikwazo vya sera kwa ufunguzi kamili wa huduma zake za API.
Mnamo Mei 2024, DeepSeek-V2, modeli kuu ya chanzo wazi ya MoE, ilitolewa, na vita vya bei vilianza rasmi. DeepSeek-V2 hutumia MLA (utaratibu wa usikivu wa vichwa vingi uliofichika), ambayo hupunguza alama ya kumbukumbu ya muundo hadi 5%-13% ya ile ya MHA ya jadi. Wakati huo huo, pia imeunda kwa kujitegemea muundo wa sparse wa DeepSeek MoE Sparse, ambayo hupunguza sana ugumu wa computational wa mfano. Shukrani kwa hili, modeli inadumisha bei ya API ya "pembejeo 1/milioni na yuan 2/milioni".
DeepSeek imekuwa na athari kubwa. Katika suala hili, mchambuzi mkuu katika SemiAnalysis anaamini kwamba karatasi ya DeepSeek V2 "inaweza kuwa mojawapo bora zaidi mwaka huu." Vile vile, Andrew Carr, mfanyakazi wa zamani wa OpenAI, anaamini kwamba karatasi "imejaa hekima ya ajabu" na imetumia mipangilio yake ya mafunzo kwa mfano wake mwenyewe.
Ikumbukwe kwamba huu ni mfano ambao unaonyesha alama za GPT-4-Turbo, na bei ya API ni 1/70 tu ya mwisho.
Mnamo Juni 17, 2024, DeepSeek kwa mara nyingine tena ilifanya msukumo mkubwa, ikitoa modeli ya msimbo ya DeepSeek Coder V2. chanzo wazi na kudai kuwa uwezo wake wa msimbo ulipita GPT-4-Turbo, modeli ya juu zaidi ya chanzo funge wakati huo. DeepSeek Coder V2 inaendelea na mkakati thabiti wa chanzo huria wa DeepSeek, huku miundo yote, msimbo na karatasi zikiwa wazi, na matoleo mawili, 236B na 16B, yametolewa. Huduma za API za DeepSeek C oder V2 zinapatikana pia mtandaoni, na bei inasalia kuwa "pembejeo za yuan 1/milioni na yuan 2/milioni".
Washa Tarehe 21 Juni 2024, DeepSeek Coder ilitumika katika utekelezaji wa msimbo wa mtandaoni. Siku hiyo hiyo, Claude3.5 Sonnet ilitolewa, ikiwa na kipengele kipya cha Artifacts, ambacho hutengeneza kiotomatiki msimbo na kuiendesha moja kwa moja kwenye kivinjari. Siku hiyo hiyo, msaidizi wa nambari kwenye tovuti ya DeepSeek pia alizindua kipengele sawa: toa msimbo na uikimbie kwa mbofyo mmoja.
Wacha tuangalie matukio makuu ya kipindi hiki:
Ufanisi unaoendelea, unaovutia tahadhari ya kimataifa
Mnamo Mei 2024, DeepSeek ilipata umaarufu mara moja kwa kutoa DeepSeek V2, muundo wa programu huria kulingana na MoE. Ililingana na utendaji wa GPT-4-Turbo, lakini kwa bei ya pembejeo ya yuan 1/milioni, ambayo ilikuwa 1/70 ya GPT-4-Turbo. Wakati huo, DeepSeek ikawa "mchinjaji wa bei" maarufu katika tasnia, na kisha wachezaji wa kawaida kama vile Zhicheng, ByteDance, na Alibaba… na wachezaji wengine wakuu walifuata nyayo haraka na kupunguza bei zao. Pia ilikuwa karibu wakati huo kwamba kulikuwa na mzunguko mwingine wa kupiga marufuku GPT, na idadi kubwa ya maombi ya AI ilianza kujaribu mifano ya ndani kwa mara ya kwanza.
Mnamo Julai 2024, mwanzilishi wa DeepSeek Liang Wenfeng alikubali tena mahojiano na Dark Surge na kujibu moja kwa moja vita vya bei: “Haijatarajiwa sana. Sikutarajia bei itafanya kila mtu awe nyeti sana. Tunafanya mambo kwa kasi yetu wenyewe na kisha bei kulingana na gharama. Kanuni yetu si kupoteza pesa au kupata faida kubwa kupita kiasi. Bei hii pia ni juu kidogo ya gharama na faida kidogo.
Inaweza kuonekana kuwa, tofauti na washindani wengi ambao hulipa kutoka kwa mifuko yao wenyewe ili kutoa ruzuku, DeepSeek ina faida kwa bei hii.
Baadhi ya watu wanaweza kusema: kupunguzwa kwa bei ni kama kuwaibia watumiaji, na hii ni kawaida katika vita vya bei katika enzi ya mtandao.
Kujibu, Liang Wenfeng pia alijibu: “Kuibia watumiaji sio lengo letu kuu. Tulipunguza bei kwa sababu, kwa upande mmoja, gharama imeshuka tunapochunguza muundo wa mtindo wa kizazi kijacho, na kwa upande mwingine, tunahisi kwamba API na AI zote zinapaswa kuwa nafuu na kupatikana kwa kila mtu. ”
Kwa hivyo hadithi inaendelea na udhanifu wa Liang Wenfeng.
Mnamo Julai 4, 2024, API ya DeepSeek iliingia mtandaoni. Bei ya muktadha wa 128K ilisalia bila kubadilika. Gharama ya makisio ya modeli inahusiana kwa karibu na urefu wa muktadha. Kwa hiyo, mifano nyingi zina vikwazo vikali kwa urefu huu: toleo la awali la GPT-3.5 tu lina muktadha wa 4k.
Kwa wakati huu, DeepSeek iliongeza urefu wa muktadha kutoka 32k ya awali hadi 128k huku bei ikiwa haijabadilika (yuan 1 kwa tokeni milioni za kuingiza na yuan 2 kwa tokeni za pato milioni).
Washa Julai 10, 2024, matokeo ya Olympiad ya kwanza ya ulimwengu ya AI (AIMO) yalitangazwa, na mtindo wa DeepSeekMath ukawa chaguo la kawaida la timu za Juu.. Timu 4 Bora zilizoshinda zote zilichagua DeepSeekMath-7B kama msingi wa miundo yao ya kuingia na kupata matokeo ya kuvutia katika shindano hilo.
Washa Julai 18, 2024, DeepSeek-V2 iliongoza orodha ya mifano ya chanzo huria kwenye Uwanja wa Chatbot, kuzidi miundo nyota kama vile Llama3-70B, Qwen2-72B, Nemotron-4-340B, na Gemma2-27B, na kuwa kigezo kipya cha miundo mikubwa ya chanzo huria.
Katika Julai 2024, DeepSeek iliendelea kuajiri talanta na kuajiri vipaji vya juu kutoka duniani kote katika nyanja mbalimbali, ikiwa ni pamoja na algoriti za AI, AI Infra, AI Tutor, na bidhaa za AI, ili kujiandaa kwa uvumbuzi wa kiteknolojia wa siku zijazo na ukuzaji wa bidhaa.
Washa Tarehe 26 Julai 2024, DeepSeek API ilileta uboreshaji muhimu, ikisaidia kikamilifu mfululizo wa vipengele vya kina kama vile kubatilisha, ukamilishaji wa FIM (Jaza-Katikati), Upigaji simu wa Utendakazi na JSON Output. Kazi ya FIM inavutia sana: mtumiaji anatoa mwanzo na mwisho, na mfano mkubwa hujaza katikati, ambayo inafaa sana kwa mchakato wa programu kujaza msimbo halisi wa kazi. Chukua kuandika mlolongo wa Fibonacci kama mfano:
Washa Tarehe 2 Agosti 2024, DeepSeek ilianzisha teknolojia ya kuweka akiba ya diski kuu kwa ubunifu, na kupunguza bei za API kwenye vifundo vya miguu. Hapo awali, bei za API zilikuwa ¥1 tu kwa tokeni milioni. Sasa, hata hivyo, mara tu kipigo cha kache kinapofanywa, ada ya API hushuka moja kwa moja hadi ¥0.1.
Kipengele hiki kinafaa sana wakati mazungumzo endelevu na kazi za uchakataji bechi zinahusika.
Washa Tarehe 16 Agosti 2024, DeepSeek ilitoa nadharia yake ya hisabati inayothibitisha muundo wa DeepSeek-Prover-V1.5 kama chanzo huria, ambacho kilipita mifano mingi inayojulikana ya programu huria katika nadharia ya hesabu ya shule ya upili na chuo kikuu inayothibitisha majaribio.
Washa Septemba 6, 2024, DeepSeek ilitoa muundo wa muunganisho wa DeepSeek-V2.5. Hapo awali, DeepSeek ilitoa mifano miwili hasa: Muundo wa Gumzo ulilenga ujuzi wa mazungumzo ya jumla, na Msimbo wa Msimbo ulilenga ujuzi wa kuchakata msimbo. Wakati huu, mifano miwili imeunganishwa kuwa moja, iliyoboreshwa hadi DeepSeek-V2.5, ambayo inalingana vyema na mapendekezo ya kibinadamu na pia imepata maboresho makubwa katika kazi za kuandika, kufuata amri, na vipengele vingine.
Washa Septemba 18, 2024, DeepSeek-V2.5 ilikuwa tena kwenye orodha ya hivi punde zaidi ya LMSYS, ikiongoza mifano ya nyumbani. na kuweka alama mpya bora kwa miundo ya nyumbani katika uwezo mbalimbali wa mtu binafsi.
Washa Tarehe 20 Novemba 2024, DeepSeek ilitolewa DeepSeek-R1-Lite kwenye tovuti rasmi. Huu ni mfano wa makisio unaolinganishwa na o1-hakiki, na pia hutoa kiasi cha kutosha cha data ya sanisi kwa ajili ya mafunzo ya baada ya V3.
Washa Desemba 10, 2024, mfululizo wa DeepSeek V2 ulianza tamati yake kwa kutolewa kwa toleo la mwisho lililosawazishwa la DeepSeek-V2.5-1210. Toleo hili linaboresha kikamilifu uwezo mbalimbali ikiwa ni pamoja na hisabati, usimbaji, uandishi, na uigizaji-dhima kupitia mafunzo ya baada ya mafunzo.
Kwa kuwasili kwa toleo hili, programu ya wavuti ya DeepSeek pia ilifungua kipengele cha kutafuta mtandao.
Washa Desemba 13, 2024, DeepSeek ilifanya mafanikio mengine katika uwanja wa multimodality na ilitoa toleo la wazi la multimodal kubwa la DeepSeek-VL2. DeepSeek-VL2 inachukua usanifu wa MoE, ambayo inaboresha kwa kiasi kikubwa uwezo wake wa kuona. Inapatikana katika saizi tatu: 3B, 16B, na 27B, na ina faida katika vipimo vyote.
Washa Desemba 26, 2024, DeepSeek-V3 ilitolewa na chanzo wazi: makadirio ya gharama ya mafunzo ilikuwa dola milioni 5.5 tu za Amerika. DeepSeek-V3 ililinganisha kikamilifu utendaji wa miundo ya vyanzo vilivyofungwa ng'ambo na kuboresha pakubwa kasi ya uzalishaji.
Bei ya huduma za API ilirekebishwa, lakini wakati huo huo, kipindi cha majaribio cha upendeleo cha siku 45 kiliwekwa kwa mtindo mpya.
Mnamo Januari 15, 2025, programu rasmi ya DeepSeek ilitolewa na kuzinduliwa kikamilifu kwenye masoko makubwa ya programu za iOS/Android.
Mnamo Januari 20, 2025, karibu na Mwaka Mpya wa Kichina, modeli ya uelekezaji ya DeepSeek-R1 ilitolewa rasmi na kutumiwa wazi. DeepSeek-R1 ililinganisha utendaji wake kikamilifu na toleo rasmi la OpenAI o1 na kufungua kipengele cha matokeo cha msururu wa mawazo. Wakati huo huo, DeepSeek pia ilitangaza kuwa leseni ya mfano ya chanzo huria itabadilishwa kuwa leseni ya MIT, na makubaliano ya mtumiaji yangeruhusu kwa uwazi "uchuuzi wa mfano", kukumbatia chanzo wazi na kukuza ushiriki wa teknolojia.
Baadaye, mtindo huu ulikuwa maarufu sana na ulianzisha enzi mpya
Kwa hivyo, kufikia Januari 27, 2025, Programu ya DeepSeek iliipita ChatGPT kwa mafanikio na kuweka juu orodha ya upakuaji wa programu isiyolipishwa kwenye Duka la Programu la iOS la Marekani, na kuwa programu ya kipekee ya AI.
Mnamo Januari 27, 2025, saa 1:00 asubuhi ya Mkesha wa Mwaka Mpya, DeepSeek Janus-Pro ilitolewa kama chanzo huria. Huu ni mfano wa multimodal unaoitwa baada ya mungu wa nyuso mbili Janus katika mythology ya kale ya Kirumi: inakabiliwa na siku za nyuma na za baadaye. Hii pia inawakilisha uwezo wawili wa modeli—uelewa wa kuona na utengenezaji wa picha—na utawala wake wa viwango vingi.
Umaarufu mkubwa wa DeepSeek ulizusha wimbi la mshtuko wa teknolojia duniani mara moja, hata kusababisha moja kwa moja bei ya hisa ya NVIDIA kushuka 18%, na thamani ya soko ya soko la hisa la teknolojia ya kimataifa kuyeyuka kwa takriban dola trilioni 1 za Marekani. Wall Street na vyombo vya habari vya teknolojia vilidai kwamba kupanda kwa DeepSeek kunaharibu mazingira ya tasnia ya kimataifa ya AI na kuibua changamoto isiyokuwa ya kawaida kwa makampuni makubwa ya teknolojia ya Marekani.
Mafanikio ya DeepSeek pia yameibua usikivu wa juu wa kimataifa na mijadala mikali kuhusu uwezo wa uvumbuzi wa kiteknolojia wa AI wa China. Rais wa Merika, Donald Trump, katika maoni adimu ya umma, alisifu kuongezeka kwa DeepSeek kama "chanya" na kusema ni "wito wa kuamka" kwa Merika. Mkurugenzi Mtendaji wa Microsoft Satya Nadella na Mkurugenzi Mtendaji wa OpenAI Sam Altman pia waliisifu DeepSeek, wakiita teknolojia yake "ya kuvutia sana."
Bila shaka, ni lazima pia tuelewe kwamba sifa zao kwa sehemu ni utambuzi wa nguvu za DeepSeek, na kwa sehemu ni onyesho la nia zao wenyewe. Kwa mfano, wakati Anthropic inatambua mafanikio ya DeepSeek, pia inatoa wito kwa serikali ya Marekani kuimarisha udhibiti wa chip nchini China.
Mkurugenzi Mtendaji wa Anthropic achapisha nakala ya maneno 10,000: Kupanda kwa DeepSeek inamaanisha kuwa Ikulu inapaswa kuongeza udhibiti.
Muhtasari na mtazamo
Ukiangalia nyuma miaka miwili iliyopita ya DeepSeek, kwa kweli imekuwa "muujiza wa Kichina": kutoka mwanzo usiojulikana hadi "nguvu ya ajabu ya Mashariki" ambayo sasa inang'aa kwenye hatua ya kimataifa ya AI, DeepSeek imeandika moja "haiwezekani" baada ya nyingine na yake. nguvu na uvumbuzi.
Maana ya kina ya msafara huu wa kiteknolojia kwa muda mrefu imevuka upeo wa ushindani wa kibiashara. DeepSeek imetangaza na ukweli kwamba katika nyanja ya kimkakati ya akili ya bandia inayohusu siku zijazo, makampuni ya China yana uwezo kamili wa kupanda hadi urefu wa teknolojia ya msingi.
"Kengele ya kengele" iliyopigwa na Trump na hofu iliyofichwa ya Anthropic inathibitisha kwa usahihi umuhimu wa uwezo wa AI wa China: sio tu inaweza kupanda mawimbi, lakini pia inajenga upya mwelekeo wa wimbi.
Deepseek bidhaa kutolewa hatua muhimu
- Tarehe 2 Novemba 2023: DeepSeek Coder Mfano Kubwa
- Tarehe 29 Novemba 2023: DeepSeek LLM 67B Muundo wa Jumla
- Tarehe 18 Desemba 2023: Mfano wa 3D DreamCraft3D
- Januari 11, 2024: DeepSeekMoE MoE mfano mkubwa
- Februari 5, 2024: DeepSeekMMath mfano wa hoja za Kihisabati
- Machi 11, 2024: DeepSeek-VL Muundo mkubwa wa Multimodal
- Mei 2024: Mfano wa jumla wa DeepSeek-V2 MoE
- Juni 17, 2024: Mfano wa msimbo wa DeepSeek Coder V2
- Septemba 6, 2024: DeepSeek-V2.5 muunganisho wa mifano ya umahiri wa jumla na msimbo
- Tarehe 13 Desemba 2024: DeepSeek-VL2 muundo wa MoE wa aina nyingi
- Tarehe 26 Desemba 2024: DeepSeek-V3 mfululizo mpya wa miundo mikubwa yenye madhumuni ya jumla
- Januari 20, 2025: DeepSeek-R1 mfano wa uelekezaji
- Januari 20, 2025: Programu rasmi ya DeepSeek (iOS na Android)
- Januari 27, 2025: DeepSeek Janus-Pro muundo wa aina nyingi