भविष्यमा, त्यहाँ थप र अधिक हार्डकोर नवीनता हुनेछ। अहिले यो बुझ्न सजिलो नहुन सक्छ, किनकि सम्पूर्ण सामाजिक समूहलाई तथ्यबाट शिक्षित गर्न आवश्यक छ। जब यो समाजले हार्डकोर नवीनता गर्ने मानिसहरूलाई सफल हुन अनुमति दिन्छ, सामूहिक मानसिकता परिवर्तन हुनेछ। हामीलाई केवल तथ्य र प्रक्रियाको गुच्छा चाहिन्छ। — लियांग वेनफेंग, DeepSeek का संस्थापक

हालैका दिनहरूमा, DeepSeek संसारभरि विस्फोट भएको छ, तर कम्पनी धेरै कम-कुञ्जी भएको कारणले र कुनै पनि घोषणा नगरेकोले, जनतालाई यो टेक्नोलोजी कम्पनीको बारेमा धेरै थोरै थाहा छ जुन ठूलो सम्भावना छ - चाहे यो यसको संस्थापक पृष्ठभूमि, व्यापार दायरा हो। , वा उत्पादन लेआउट।

सबै सामग्री मार्फत क्रमबद्ध गरेपछि, मैले यो लेख लेखे

हालका एआई खेलाडीहरूको पृष्ठभूमि के हो, उनीहरू के गरिरहेका छन्, र उनीहरूले कसलाई भर्ती गरिरहेका छन्?

र सम्भवतः DeepSeek को सबैभन्दा पूर्ण ऐतिहासिक सिंहावलोकन।

यस पटक गत वर्ष, म्याजिक क्यूब क्वान्टका एक साथी मसँग आए र सोधे, "के तपाई चीनमा ठूलो मोडेल बनाउन चाहनुहुन्छ?" र मैले दिउँसो कफी पिएर मात्र बिताएँ। अपेक्षित रूपमा, जीवन अझै पनि छनौटहरूमा निर्भर छ।

यहाँ उल्लेख गरिएको Magic Cube Quant लगानीकर्ता हो, वा मूल कम्पनी, DeepSeek को।

तथाकथित "क्वान्ट" एक लगानी संस्था हो जसले मानव शक्तिले होइन तर एल्गोरिदमद्वारा निर्णय गर्छ। क्वान्ट काल्पनिक को स्थापना धेरै लामो छैन, 2015 मा सुरु भयो। 2021 सम्म, जब यो छ वर्ष पुरानो थियो, Quant Fantasy को सम्पत्ति व्यवस्थापन स्केल 100 बिलियन नाघेको थियो, र यसलाई चीनको "चार महान क्वान्ट किंग्स" मध्ये एकको रूपमा स्वागत गरिएको थियो।

काल्पनिक स्क्वायरका संस्थापक लिआंग वेन्फेङ, जो DeepSeek का संस्थापक पनि हुन्, 1980 को दशकमा जन्मेका "गैर-मुख्यधारा" वित्तीय नेता हुन्: उनीसँग विदेशी अध्ययनको अनुभव छैन, ओलम्पिक प्रतियोगिता विजेता होइन, र कृत्रिम बुद्धिमत्तामा प्रमुख झेजियाङ विश्वविद्यालयको इलेक्ट्रोनिक इन्जिनियरिङ विभागबाट स्नातक। उहाँ एक नेटिभ टेक्नोलोजी विज्ञ हुनुहुन्छ जसले कम-कुञ्जी तरीकाले काम गर्नुहुन्छ, "कागजहरू पढ्ने, कोड लेख्ने, र समूह छलफलमा भाग लिने"।

Liang Wenfeng को परम्परागत व्यवसाय मालिक को बानी छैन, तर एक शुद्ध "टेक गीक" जस्तै छ।। धेरै उद्योग भित्री र DeepSeek अनुसन्धानकर्ताहरूले लियांग वेन्फेङलाई अत्यन्त उच्च प्रशंसा दिएका छन्: "कसैसँग बलियो इन्फ्रा इन्जिनियरिङ क्षमताहरू र मोडेल अनुसन्धान क्षमताहरू छन्, र स्रोतहरू पनि परिचालन गर्न सक्छन्," "कोही जसले उच्च स्तरबाट सही निर्णय गर्न सक्छ, तर उत्कृष्ट पनि। फ्रन्टलाइन अन्वेषकहरूको विवरणमा, र यसमा "डरलाग्दो सिकाउने क्षमता" पनि छ।

१TP८T स्थापना हुनुभन्दा धेरै अघि, हुआनफाङले एआई उद्योगमा दीर्घकालीन योजनाहरू बनाउन सुरु गरिसकेको थियो।। मे २०२३ मा, लियाङ वेन्फेङले डार्कसर्जसँगको अन्तर्वार्तामा उल्लेख गरे: “ओपनएआईले २०२० मा GPT3 जारी गरेपछि, एआई विकासको दिशा एकदमै स्पष्ट भएको छ, र कम्प्युटिङ पावर प्रमुख तत्व बन्नेछ; तर २०२१ मा पनि, जब हामीले फायरफ्लाइ २ को निर्माणमा लगानी गर्यौं, धेरैजसो मानिसहरूले अझै बुझ्न सकेनन्।"

यस निर्णयको आधारमा, Huanfang ले आफ्नै कम्प्युटिङ पूर्वाधार निर्माण गर्न थाले। “सुरुको १ कार्डबाट २०१५ मा १०० कार्ड, २०१९ मा १ हजार र त्यसपछि १०,००० कार्डहरू, यो प्रक्रिया क्रमशः भयो। केही सय कार्डहरू अघि, हामी एक IDC मा होस्ट गरिएको थियो। जब स्केल ठूलो भयो, होस्टिंगले अब आवश्यकताहरू पूरा गर्न सकेन, त्यसैले हामीले आफ्नै कम्प्युटर कोठा निर्माण गर्न थाल्यौं।"

पछि, फाइनान्स इलेभेनले रिपोर्ट गर्यो, "पाँच भन्दा बढी छैन 10,000 भन्दा बढी GPU हरू भएका घरेलु कम्पनीहरू, र केही प्रमुख निर्माताहरूका अतिरिक्त, तिनीहरूले Magic Cube भनिने परिमाणात्मक कोष कम्पनी पनि समावेश गर्दछ।"सामान्यतया यो विश्वास गरिन्छ कि १०,००० Nvidia A100 चिप्स ठूला मोडेलहरूलाई तालिम दिन कम्प्युटिङ पावरको थ्रेसहोल्ड हो।

अघिल्लो अन्तर्वार्तामा, लिआंग वेनफेंगले पनि एउटा रोचक बिन्दु उल्लेख गरे: धेरै मानिसहरू यसको पछाडि एक अज्ञात व्यापार तर्क छ भन्ने लाग्छ, तर वास्तवमा, यो मुख्यतया जिज्ञासा द्वारा संचालित छ।

DeepSeekपहिलो भेटघाट

मे २०२३ मा डार्कसर्जसँगको अन्तर्वार्तामा, जब सोधियो "केही समय अघि, Huanfang ले ठूला मोडेल बनाउने आफ्नो निर्णयको घोषणा गर्यो, किन मात्रात्मक कोषले यस्तो काम गर्छ?"

लियांग वेनफेंगको जवाफ गजबको थियो: “ठूलो मोडेल निर्माण गर्ने हाम्रो निर्णयको परिमाणीकरण वा वित्तसँग कुनै सरोकार छैन। हामीले यो गर्नको लागि DeepSeek नामक नयाँ कम्पनी स्थापना गरेका छौं। Mianfang मा टोलीका धेरै प्रमुख सदस्यहरू कृत्रिम बुद्धिमत्तामा संलग्न छन्। त्यस समयमा, हामीले धेरै परिदृश्यहरू प्रयास गर्यौं र अन्ततः वित्तमा बस्यौं, जुन पर्याप्त जटिल छ। सामान्य कृत्रिम बुद्धि हासिल गर्न अर्को सबैभन्दा कठिन चीजहरू मध्ये एक हुन सक्छ, त्यसैले हाम्रो लागि, यो कसरी गर्ने भन्ने प्रश्न हो, किन होइन।

व्यापारिक चासो वा बजार प्रवृतिहरू पछ्याउने द्वारा संचालित होइन, तर केवल AGI प्रविधि आफैं अन्वेषण गर्ने इच्छा र "सबैभन्दा महत्त्वपूर्ण र कठिन चीज" को निरन्तर खोजी द्वारा संचालित। नाम "DeepSeek" आधिकारिक रूपमा मे 2023 मा पुष्टि भएको थियो। जुलाई १७, २०२३ मा, "Hangzhou DeepSeek आर्टिफिशियल इन्टेलिजेन्स बेसिक टेक्नोलोजी रिसर्च कं, लिमिटेड।" समावेश गरिएको थियो।

अन नोभेम्बर 2, 2023, DeepSeek ले आफ्नो पहिलो जवाफ दियो: DeepSeek कोडर, खुला स्रोत कोडको ठूलो मोडेल। यो मोडेलले 1B, 7B, र 33B जस्ता धेरै आकारहरू समावेश गर्दछ। खुला स्रोत सामग्रीले आधार मोडेल र आदेश ट्युनिङ मोडेल समावेश गर्दछ।

त्यस समयमा, खुला स्रोत मोडेलहरू मध्ये, मेटाको कोडलामा उद्योग बेन्चमार्क थियो। यद्यपि, DeepSeek कोडर रिलीज भएपछि, यसले CodeLlama को तुलनामा बहुआयामिक अग्रणी स्थिति प्रदर्शन गर्‍यो: कोड जेनरेशनमा, HumanEval 9.3% अगाडि थियो, MBPP 10.8% अगाडि थियो, र DS-1000 5.9% अगाडि थियो।

ध्यान राख्नुहोस् कि DeepSeek कोडर 7B मोडेल हो, जबकि CodeLlama 34B मोडेल हो। थप रूपमा, DeepSeek कोडर मोडेल, निर्देशनहरूसँग ट्युन गरिसकेपछि, GPT3.5-Turbo लाई व्यापक रूपमा पार गरेको छ।

न केवल कोड उत्पादन प्रभावशाली छ, तर DeepSeek कोडरले गणित र तर्कमा यसको मांसपेशिहरु पनि देखाउँदछ।

तीन दिन पछि, नोभेम्बर 5, 2023 मा, DeepSeek ले आफ्नो WeChat सार्वजनिक खाता मार्फत भर्ती सामग्रीको ठूलो मात्रा जारी गर्‍यो, जसमा AGI ठूलो मोडेल इन्टर्न, डाटा विशेषज्ञ, डाटा आर्किटेक्चर प्रतिभा, वरिष्ठ डाटा सङ्कलन इन्जिनियर, गहिरो अध्ययन अनुसन्धान र विकास जस्ता पदहरू समावेश छन्। इन्जिनियर, आदि, र सक्रिय रूपमा टोली विस्तार गर्न थाले।

लिआंग वेन्फेङले भनेझैं, प्रतिभा भर्तीका लागि DeepSeek को "आवश्यक आवश्यकताहरू" "जोश र ठोस आधारभूत सीपहरू" हुन्।र, उनले त्यसमा जोड दिए "नवीनतालाई सकेसम्म थोरै हस्तक्षेप र व्यवस्थापन चाहिन्छ, ताकि सबैलाई गल्ती गर्ने र नयाँ चीजहरू प्रयास गर्ने स्वतन्त्रता हुन्छ। नवीनता प्रायः भित्रबाट आउँछ, जानाजानी प्रबन्धबाट होइन, र यो पक्कै पनि शिक्षणबाट आउँदैन।"

मोडेलहरू बारम्बार जारी गरिन्छ, र खुला स्रोत अभ्यास गरिन्छ

DeepSeek कोडरले चर्चा पाएपछि, DeepSeek ले मुख्य युद्धभूमि: सामान्य भाषा मोडेलहरूमा ध्यान केन्द्रित गर्‍यो।

अन नोभेम्बर 29, 2023, DeepSeek ले यसको पहिलो सामान्य-उद्देश्य ठूलो भाषा मोडेल, DeepSeek LLM 67B जारी गर्‍यो। यो मोडेल Meta को समान स्तरको LLaMA2 70B मोडेल विरुद्ध बेन्चमार्क गरिएको छ र चिनियाँ र अंग्रेजीमा लगभग 20 सार्वजनिक मूल्याङ्कन सूचीहरूमा राम्रो प्रदर्शन गरेको छ। विशेष गरी, यसको तर्क, गणित, र प्रोग्रामिङ क्षमताहरू (जस्तै, HumanEval, MATH, CEval, र CMMLU) उत्कृष्ट छन्।

DeepSeek LLM 67B ले खुला स्रोत मार्ग पनि रोजेको छ र व्यावसायिक प्रयोगलाई समर्थन गर्दछ। खुला स्रोतको लागि आफ्नो इमानदारी र दृढतालाई थप प्रदर्शन गर्न, DeepSeek ले अभूतपूर्व रूपमा, 7B र 67B विभिन्न स्केलका दुई मोडेलहरू एकैसाथ खोलेको छ, र अनुसन्धानकर्ताहरूलाई डाउनलोड गर्न र प्रयोग गर्नको लागि मोडेल प्रशिक्षण प्रक्रियाको क्रममा उत्पन्न भएका नौ चेकपोइन्टहरू पनि सार्वजनिक गरेको छ। यस प्रकारको सञ्चालन, जुन "सबै कुरा सिकाउने" जस्तै छ, सम्पूर्ण खुला स्रोत समुदायमा अत्यन्तै दुर्लभ छ।

DeepSeek LLM 67B को साँचो क्षमताहरूलाई थप व्यापक र वस्तुनिष्ठ रूपमा मूल्याङ्कन गर्नको लागि, DeepSeek अनुसन्धान टोलीले "तनाव परीक्षण" को लागि "नयाँ प्रश्नहरू" को श्रृंखला पनि सावधानीपूर्वक डिजाइन गरेको छ। यी प्रश्नहरूले उच्च-स्तर, उच्च-भेदभाव परीक्षणहरू समावेश गर्दछ जस्तै हंगेरी हाई स्कूल गणित परीक्षा प्रश्नहरू, Google आदेश निम्न मूल्याङ्कन सेटहरू, र LeetCode साप्ताहिक प्रतिस्पर्धा प्रश्नहरू। परीक्षा परिणाम उत्साहजनक थियो। DeepSeek LLM 67B ले नमूना भन्दा बाहिर सामान्यीकरण गर्ने क्षमताको सन्दर्भमा अचम्मको सम्भावना देखायो, र यसको समग्र प्रदर्शन त्यतिबेलाको सबैभन्दा उन्नत GPT-4 मोडेलको नजिक थियो।

अन डिसेम्बर 18, 2023, DeepSeek खुला स्रोत भिन्सेन्ट 3D मोडेल DreamCraft3D: यसले AIGC मा 2D प्लेनबाट 3D स्पेसमा छलांग हासिल गर्दै वाक्यबाट उच्च गुणस्तरको 3D मोडेलहरू उत्पन्न गर्न सक्छ। उदाहरणका लागि, यदि प्रयोगकर्ताले इनपुटहरू: "जंगलमा दौडिरहेको, सुँगुरको टाउको र बाँदर राजाको शरीरको हास्यास्पद हाइब्रिड छवि," DreamCraft3D ले उच्च गुणस्तरको सामग्री आउटपुट गर्न सक्छ:

सिद्धान्तमा, मोडेलले पहिले भेन रेखाचित्र पूरा गर्छ, र त्यसपछि 2D अवधारणा नक्सामा आधारित समग्र ज्यामितीय संरचनालाई पूरक बनाउँछ:

त्यसपछिको व्यक्तिपरक मूल्याङ्कनमा, 90% भन्दा बढी प्रयोगकर्ताहरूले ड्रीमक्राफ्ट 3D ले अघिल्लो पुस्ता विधिहरूको तुलनामा उत्पादन गुणस्तरमा फाइदा भएको बताए।

जनवरी 7, 2024 मा, DeepSeek ले DeepSeek LLM 67B प्राविधिक रिपोर्ट जारी गर्‍यो। यो 40+ पृष्ठको प्रतिवेदनले DeepSeek LLM 67B को धेरै विवरणहरू समावेश गर्दछ, जसमा स्व-निर्मित स्केलिंग कानूनहरू, मोडेल पङ्क्तिबद्धताको पूर्ण व्यावहारिक विवरणहरू, र एक व्यापक AGI क्षमता मूल्याङ्कन प्रणाली समावेश छ।

कागज ठेगाना

अन जनवरी 11, 2024, DeepSeek ले चीनमा पहिलो MoE (मिश्रित विशेषज्ञ वास्तुकला) ठूलो मोडेल, DeepSeekMoE ओपन सोर्स गर्‍यो: चिनियाँ र अंग्रेजीलाई समर्थन गर्ने र व्यावसायिक प्रयोगको लागि नि:शुल्क छ। त्यतिबेला MoE वास्तुकलालाई सामान्यतया OpenAI GPT-4 को प्रदर्शन सफलताको कुञ्जी मानिन्थ्यो। DeepSeek को स्व-विकसित MoE वास्तुकला 2B, 16B, र 145B जस्ता धेरै स्केलहरूमा अग्रणी छ, र यसको कम्प्युटेसनल पनि धेरै प्रशंसनीय छ।

जनवरी 25, 2024 मा, DeepSeek ले DeepSeek कोडर प्राविधिक रिपोर्ट जारी गर्‍यो। यस रिपोर्टले यसको प्रशिक्षण डेटा, प्रशिक्षण विधिहरू, र मोडेल प्रदर्शनको विस्तृत प्राविधिक विश्लेषण प्रदान गर्दछ। यस रिपोर्टमा, हामी देख्न सक्छौं कि पहिलो पटक, यसले गोदाम-स्तर कोड डाटा निर्माण गरेको छ र फाईलहरू बीचको निर्भरताहरू विश्लेषण गर्न टोपोलोजिकल क्रमबद्ध प्रयोग गरेको छ, लामो दूरीको क्रस-फाइलहरू बुझ्ने क्षमतालाई उल्लेखनीय रूपमा बढाउँदै। प्रशिक्षण विधिहरूको सन्दर्भमा, भरण-इन-मिडल विधि थपियो, जसले कोड पूरा गर्ने क्षमतामा धेरै सुधार गर्‍यो।

कागज ठेगाना

जनवरी 30, 2024 मा, DeepSeek खुला प्लेटफर्म आधिकारिक रूपमा सुरु भयो, र DeepSeek ठूलो मोडेल API सेवा परीक्षण सुरु भयो। 10 मिलियन टोकनहरू निःशुल्क प्राप्त गर्न दर्ता गर्नुहोस्। इन्टरफेस OpenAI API इन्टरफेससँग उपयुक्त छ, र दुबै च्याट/कोडर डुअल मोडेलहरू उपलब्ध छन्। यस समयमा, DeepSeek ले टेक्नोलोजी अनुसन्धान र विकासको अतिरिक्त टेक्नोलोजी सेवा प्रदायकको मार्ग अन्वेषण गर्न थाल्यो।

अन फेब्रुअरी 5, 2024, DeepSeek ले अर्को ठाडो डोमेन मोडेल जारी गर्‍यो, DeepSeekMath, एक गणितीय तर्क मोडेल। यो मोडेलमा 7B मापदण्डहरू मात्र छन्, तर यसको गणितीय तर्क क्षमता GPT-4 को नजिक छ। आधिकारिक MATH बेन्चमार्क सूचीमा, यसले भीडलाई पार गर्छ र 30B र 70B बीचको प्यारामिटर आकारहरूका साथ धेरै खुला स्रोत मोडेलहरूलाई पछाडि पार्छ। DeepSeekMath को विमोचनले DeepSeek को प्राविधिक शक्ति र ठाडो अनुसन्धान र विकास र मोडेल अनुसन्धान र विकासमा यसको अग्रगामी लेआउटमा अग्रगामी लेआउट पूर्ण रूपमा प्रदर्शन गर्दछ।

अन फेब्रुअरी 28, 2024, DeepSeek खुला स्रोत मोडेलहरू प्रयोग गर्ने बारे विकासकर्ताहरूको चिन्तालाई कम गर्न, DeepSeek ले खुला स्रोत नीति FAQ जारी गर्‍यो।, जसले मोडेल खुला स्रोत इजाजतपत्र र व्यावसायिक प्रयोग प्रतिबन्धहरू जस्ता बारम्बार सोधिने प्रश्नहरूको विस्तृत उत्तरहरू प्रदान गर्दछ। DeepSeek ले थप पारदर्शी र खुला मनोवृत्तिको साथ खुला स्रोतलाई अँगालेको छ:

अन मार्च 11, 2024, DeepSeek ले बहु-मोडल ठूलो मोडेल DeepSeek-VL जारी गर्‍यो।। यो बहु-मोडल एआई प्रविधिमा DeepSeek को प्रारम्भिक प्रयास हो। मोडेल 7B र 1.3B साइजको छ, र मोडेल र प्राविधिक कागजातहरू एकैसाथ खुला स्रोत हुन्।

अन मार्च २०, २०२४ मा, Huanfang AI र DeepSeek लाई फेरि एक पटक NVIDIA GTC २०२४ सम्मेलनमा भाग लिन आमन्त्रित गरिएको थियो, र संस्थापक लियांग वेनफेङले प्राविधिक मुख्य भाषण दिए। "विविधतामा सद्भाव: ठूला भाषा मोडेलहरूको मूल्यहरू पङ्क्तिबद्ध र डिकपलिंग" शीर्षक। "एउटै मूल्यको ठूलो मोडेल र बहुलवादी समाज र संस्कृति बीचको द्वन्द्व", "ठूलो मोडेल मूल्य पङ्क्तिबद्धताको दोहोरोपन" र "दुकलित मूल्य संरेखणका बहुआयामिक चुनौतीहरू" जस्ता मुद्दाहरू छलफल गरियो। यसले प्राविधिक अनुसन्धान र विकासको अतिरिक्त DeepSeek को मानवीय हेरचाह र एआई विकासको लागि सामाजिक उत्तरदायित्व प्रदर्शन गर्‍यो।

मार्च २०२४ मा, DeepSeek API आधिकारिक रूपमा सशुल्क सेवाहरू सुरू गरियो, जसले चिनियाँ ठूलो मोडेल बजारमा मूल्य युद्धको प्रस्तावनालाई पूर्ण रूपमा प्रज्वलित गर्‍यो: 1 युआन प्रति मिलियन इनपुट टोकन र 2 युआन प्रति मिलियन आउटपुट टोकन।

2024 मा, DeepSeek ले चीनमा ठूला मोडेलहरूको रेकर्डल सफलतापूर्वक पार गर्‍यो, यसको API सेवाहरूको पूर्ण उद्घाटनको लागि नीति अवरोधहरू हटाउँदै।

मे 2024 मा, DeepSeek-V2, एक खुला स्रोत सामान्य MoE ठूलो मोडेल, जारी गरियो, र आधिकारिक रूपमा मूल्य युद्ध सुरु भयो। DeepSeek-V2 ले एमएलए (मल्टी-हेड लेटेन्ट अटेन्शन मेकानिज्म) प्रयोग गर्दछ, जसले मोडेलको मेमोरी फुटप्रिन्टलाई परम्परागत MHA को 5%-13% मा घटाउँछ। एकै समयमा, यसले स्वतन्त्र रूपमा DeepSeek MoE स्पार्स स्पार्स संरचना पनि विकास गरेको छ, जसले मोडेलको कम्प्युटेसनल जटिलतालाई धेरै कम गर्छ। यसका लागि धन्यवाद, मोडेलले "१ युआन/मिलियन इनपुट र २ युआन/मिलियन आउटपुट" को API मूल्य कायम राख्छ।

DeepSeek ले ठूलो प्रभाव पारेको छ। यस सन्दर्भमा, SemiAnalysis मा प्रमुख विश्लेषक विश्वास गर्छन् कि DeepSeek V2 पेपर "यस वर्ष उत्कृष्ट मध्ये एक हुन सक्छ।" त्यसैगरी, ओपनएआईका पूर्व कर्मचारी एन्ड्रयू कारले यो कागज "अद्भुत ज्ञानले भरिएको" छ र यसको प्रशिक्षण सेटिङहरू आफ्नै मोडेलमा लागू गरेको विश्वास गर्छन्।

यो ध्यान दिनु पर्छ कि यो GPT-4-टर्बो बेन्चमार्क गर्ने मोडेल हो, र API मूल्य पछिल्लो को 1/70 मात्र हो।

जुनमा 17, 2024, DeepSeek ले फेरि एक पटक ठूलो धक्का दियो, DeepSeek कोडर V2 कोड मोडेल जारी गर्दै खुला स्रोत र दावी गर्दै कि यसको कोड क्षमताहरूले GPT-4-Turbo लाई पार गर्यो, त्यो समयको सबैभन्दा उन्नत बन्द-स्रोत मोडेल। DeepSeek कोडर V2 ले DeepSeek को सुसंगत खुला स्रोत रणनीति जारी राख्छ, सबै मोडेलहरू, कोड, र कागजहरू खुला स्रोतहरू सहित, र दुई संस्करणहरू, 236B र 16B, प्रदान गरिएका छन्। DeepSeek C oder V2 का API सेवाहरू पनि अनलाइन उपलब्ध छन्, र मूल्य "१ युआन/मिलियन इनपुट र २ युआन/मिलियन आउटपुट" मा रहन्छ।

अन जुन 21, 2024, DeepSeek कोडरले अनलाइन कोड कार्यान्वयनलाई समर्थन गर्यो। सोही दिन, Claude3.5 Sonnet जारी गरिएको थियो, नयाँ कलाकृति सुविधाको साथ, जसले स्वचालित रूपमा कोड उत्पन्न गर्दछ र यसलाई ब्राउजरमा सीधा चलाउँछ। सोही दिन, DeepSeek वेबसाइटमा कोड सहायकले पनि उही सुविधा सुरु गर्‍यो: कोड उत्पन्न गर्नुहोस् र यसलाई एक क्लिकमा चलाउनुहोस्।

यस अवधिका प्रमुख घटनाहरूको समीक्षा गरौं:

निरन्तर सफलताहरू, विश्वव्यापी ध्यान आकर्षित गर्दै

मे २०२४ मा, MoE मा आधारित खुला स्रोत मोडेल DeepSeek V2 जारी गरेर DeepSeek रातारात प्रसिद्ध भयो। यसले GPT-4-Turbo को प्रदर्शनसँग मेल खायो, तर केवल 1 युआन/मिलियन इनपुटको मूल्यमा, जुन GPT-4-Turbo को 1/70 थियो। त्यस समयमा, DeepSeek उद्योगमा एक प्रसिद्ध "मूल्य कसाई" बन्यो, र त्यसपछि Zhicheng, ByteDance, र Alibaba जस्ता मुख्यधारका खेलाडीहरू... र अन्य प्रमुख खेलाडीहरूले छिट्टै त्यसलाई पछ्याए र आफ्नो मूल्य घटाए। त्यो समयको वरिपरि GPT प्रतिबन्धको अर्को चरण पनि थियो, र ठूलो संख्यामा एआई अनुप्रयोगहरूले पहिलो पटक घरेलु मोडेलहरू प्रयोग गर्न थाले।

जुलाई 2024 मा, DeepSeek संस्थापक Liang Wenfeng ले एक पटक फेरि डार्क सर्जसँगको अन्तर्वार्ता स्वीकार गर्नुभयो र मूल्य युद्धमा सीधा प्रतिक्रिया दिनुभयो: "धेरै अप्रत्याशित। मैले मूल्यले सबैलाई यति संवेदनशील बनाउने अपेक्षा गरेको थिइनँ। हामी केवल आफ्नो गतिमा चीजहरू गर्छौं र त्यसपछि लागतमा आधारित मूल्य। हाम्रो सिद्धान्त पैसा गुमाउनु वा अत्यधिक नाफा कमाउनु होइन। यो मूल्य पनि थोरै नाफामा लागतभन्दा अलि बढी हो ।”

यो देख्न सकिन्छ, धेरै प्रतियोगीहरूको विपरीत जसले सब्सिडी दिन आफ्नै जेबबाट भुक्तान गर्दछ, DeepSeek यस मूल्यमा लाभदायक छ।

केही मानिसहरूले भन्न सक्छन्: मूल्य कटौती प्रयोगकर्ताहरू लुट्नु जस्तै हो, र यो सामान्यतया इन्टरनेट युगमा मूल्य युद्धहरूमा मामला हो।

जवाफमा, लियांग वेन्फेंगले पनि जवाफ दिए: "प्रयोगकर्ताहरू लुट्नु हाम्रो मुख्य लक्ष्य होइन। हामीले मूल्य घटाएका छौं किनभने, एकातिर, हामीले अर्को पुस्ताको मोडेलको संरचना अन्वेषण गर्दा लागत घटेको छ, र अर्कोतर्फ, हामीलाई API र AI दुवै किफायती र सबैका लागि पहुँचयोग्य हुनुपर्छ भन्ने लाग्छ। "

त्यसैले कथा लिआंग वेनफेङको आदर्शवादको साथ जारी छ।

जुलाई ४, २०२४ मा, १TP8T API अनलाइन भयो। 128K सन्दर्भको लागि मूल्य अपरिवर्तित रह्यो। मोडेलको अनुमान लागत सन्दर्भको लम्बाइसँग नजिकबाट सम्बन्धित छ। त्यसकारण, धेरै मोडेलहरूमा यस लम्बाइमा कडा प्रतिबन्धहरू छन्: GPT-3.5 को प्रारम्भिक संस्करणमा मात्र 4k सन्दर्भ छ।

यस समयमा, DeepSeek ले मूल्यलाई अपरिवर्तित राख्दै अघिल्लो 32k बाट 128k सम्म सन्दर्भ लम्बाइ बढायो (1 युआन प्रति मिलियन इनपुट टोकन र 2 युआन प्रति मिलियन आउटपुट टोकन)।

अन जुलाई 10, 2024, विश्वको पहिलो एआई ओलम्पियाड (AIMO) को नतिजा घोषणा गरियो, र DeepSeekMath मोडेल शीर्ष टोलीहरूको साझा छनौट भयो।। विजेता शीर्ष 4 टोलीहरू सबैले DeepSeekMath-7B लाई उनीहरूको प्रविष्टि मोडेलको आधारको रूपमा रोजे र प्रतियोगितामा प्रभावशाली नतिजाहरू हासिल गरे।

अन जुलाई १८, २०२४ मा, १TP8T-V2 च्याटबोट एरिनामा खुला स्रोत मोडेलहरूको सूचीमा शीर्ष स्थानमा रह्यो, Llama3-70B, Qwen2-72B, Nemotron-4-340B, र Gemma2-27B जस्ता तारा मोडेलहरूलाई उछिनेर, र खुला स्रोतका ठूला मोडलहरूका लागि नयाँ बेन्चमार्क बन्ने।

मा जुलाई 2024, DeepSeek ले प्रतिभा भर्ती गर्न जारी राख्यो र भविष्यको प्राविधिक आविष्कार र उत्पादन विकासको लागि तयारी गर्न एआई एल्गोरिदम, एआई इन्फ्रा, एआई ट्युटर र एआई उत्पादनहरू सहित बहु क्षेत्रहरूमा विश्वभरका शीर्ष प्रतिभाहरूलाई भर्ती गरियो।

अन जुलाई २६, २०२४ मा, DeepSeek API ले एउटा महत्त्वपूर्ण अपग्रेडको सुरुवात गर्‍यो, जसले ओभरराइटिङ, FIM (फिल-इन-द-मिडल) कम्प्लीशन, फंक्शन कलिङ, र JSON आउटपुट जस्ता उन्नत सुविधाहरूको श्रृंखलालाई पूर्ण रूपमा समर्थन गर्‍यो। FIM प्रकार्य धेरै रोचक छ: प्रयोगकर्ताले सुरुवात र अन्त्य दिन्छ, र ठूलो मोडेलले बीचमा भर्छ, जुन प्रोग्रामिङ प्रक्रियाको लागि सही प्रकार्य कोड भर्नको लागि धेरै उपयुक्त छ। उदाहरणको रूपमा फिबोनाची अनुक्रम लेखन लिनुहोस्:

अन अगस्ट 2, 2024, DeepSeek ले हार्ड डिस्क क्यासिङ टेक्नोलोजी अभिनव रूपमा प्रस्तुत गर्‍यो, एपीआई मूल्यहरू खुट्टामा घटाउँदै। पहिले, API मूल्यहरू प्रति मिलियन टोकनहरू मात्र £1 थिए। अब, तथापि, एक पटक क्यास हिट भएपछि, API शुल्क सिधै ¥0.1 मा झर्छ।

निरन्तर कुराकानी र ब्याच प्रशोधन कार्यहरू संलग्न हुँदा यो सुविधा धेरै व्यावहारिक छ।

अन अगस्त 16, 2024, DeepSeek ले यसको गणितीय प्रमेय प्रमाणित मोडेल DeepSeek-Prover-V1.5 जारी गर्‍यो। खुला स्रोतको रूपमा, जसले हाई स्कूल र कलेजको गणितीय प्रमेय प्रमाणित परीक्षणहरूमा धेरै प्रसिद्ध खुला स्रोत मोडेलहरूलाई पार गर्यो।

अन सेप्टेम्बर 6, 2024, DeepSeek ले DeepSeek-V2.5 फ्युजन मोडेल जारी गर्‍यो। पहिले, DeepSeek ले मुख्यतया दुई मोडेलहरू प्रदान गर्‍यो: कुराकानी मोडेल सामान्य कुराकानी सीपहरूमा केन्द्रित थियो, र कोड मोडेल कोड प्रशोधन कौशलहरूमा केन्द्रित थियो। यस पटक, दुई मोडेलहरूलाई एकमा जोडिएको छ, DeepSeek-V2.5 मा स्तरवृद्धि गरिएको छ, जसले मानव प्राथमिकताहरूसँग राम्रोसँग पङ्क्तिबद्ध छ र लेखन कार्यहरू, आदेश पालना, र अन्य पक्षहरूमा पनि उल्लेखनीय सुधारहरू हासिल गरेको छ।

अन सेप्टेम्बर 18, 2024, DeepSeek-V2.5 एक पटक फेरि पछिल्लो LMSYS सूचीमा थियो, घरेलु मोडेलहरूको अग्रणी र धेरै व्यक्तिगत क्षमताहरूमा घरेलु मोडेलहरूको लागि नयाँ उत्कृष्ट स्कोरहरू सेट गर्दै।

अन नोभेम्बर 20, 2024, DeepSeek DeepSeek-R1-लाइट जारी गरियो आधिकारिक वेबसाइटमा। यो o1-पूर्वावलोकनसँग तुलना गर्न मिल्ने एक अनुमान मोडेल हो, र यसले V3 को पोस्ट-ट्रेनिङको लागि पर्याप्त मात्रामा सिंथेटिक डेटा पनि प्रदान गर्दछ।

अन डिसेम्बर 10, 2024, DeepSeek V2 शृङ्खलाले DeepSeek-V2.5-1210 को अन्तिम फाइन-ट्युन गरिएको संस्करणको रिलीजसँगै यसको फाइनलमा प्रवेश गर्यो। यो संस्करणले गणित, कोडिङ, लेखन, र पोस्ट-ट्रेनिङ मार्फत भूमिका खेल्ने सहित बहु क्षमताहरूलाई व्यापक रूपमा सुधार गर्दछ।

यस संस्करणको आगमनसँगै, DeepSeek वेब एपले नेटवर्क खोजी कार्य पनि खोल्यो।

अन डिसेम्बर 13, 2024, DeepSeek ले बहुविधताको क्षेत्रमा अर्को सफलता हासिल गर्‍यो र खुला स्रोत मल्टिमोडल ठूलो मोडेल DeepSeek-VL2 जारी गर्‍यो। DeepSeek-VL2 ले MoE आर्किटेक्चरलाई अपनाउँछ, जसले यसको दृश्य क्षमताहरूमा उल्लेखनीय सुधार गर्दछ। यो तीन आकारहरूमा उपलब्ध छ: 3B, 16B, र 27B, र सबै मेट्रिक्समा फाइदा छ।

अन डिसेम्बर 26, 2024, DeepSeek-V3 खुला स्रोतको साथ जारी गरिएको थियो: अनुमानित प्रशिक्षण लागत मात्र 5.5 मिलियन अमेरिकी डलर थियो। DeepSeek-V3 ले विदेशमा अग्रणी बन्द स्रोत मोडेलहरूको कार्यसम्पादनलाई पूर्ण रूपमा बेन्चमार्क गर्‍यो र पुस्ताको गतिलाई धेरै सुधार गर्‍यो।

API सेवाहरूको मूल्य निर्धारण समायोजन गरिएको थियो, तर एकै समयमा, नयाँ मोडेलको लागि 45-दिनको अधिमान्य परीक्षण अवधि सेट गरिएको थियो।

जनवरी 15, 2025 मा, आधिकारिक DeepSeek एप आधिकारिक रूपमा जारी गरिएको थियो र प्रमुख iOS/Android एप बजारहरूमा पूर्ण रूपमा सुरू गरिएको थियो।

जनवरी 20, 2025 मा, चिनियाँ नयाँ वर्षको नजिक, DeepSeek-R1 अनुमान मोडेल आधिकारिक रूपमा जारी र खुला स्रोत गरिएको थियो। DeepSeek-R1 ले आधिकारिक OpenAI o1 रिलिजसँग आफ्नो कार्यसम्पादनलाई पूर्ण रूपमा पङ्क्तिबद्ध गर्‍यो र विचार श्रृंखला आउटपुट प्रकार्य खोल्यो। उही समयमा, DeepSeek ले मोडेल खुला स्रोत इजाजतपत्रलाई MIT लाइसेन्समा परिवर्तन गर्ने घोषणा पनि गर्‍यो, र प्रयोगकर्ता सम्झौताले खुला स्रोतलाई थप अँगालेर र प्रविधि साझेदारी प्रवर्द्धन गर्दै "मोडल डिस्टिलेसन" लाई स्पष्ट रूपमा अनुमति दिनेछ।

पछि, यो मोडेल धेरै लोकप्रिय भयो र नयाँ युगमा प्रवेश गर्यो

फलस्वरूप, 27 जनवरी, 2025 सम्म, DeepSeek एपले ChatGPT लाई सफलतापूर्वक पार गर्‍यो र US iOS एप स्टोरमा नि:शुल्क एप डाउनलोड सूचीमा शीर्ष स्थानमा पुग्यो, एक अभूतपूर्व AI एप बन्यो।

जनवरी 27, 2025 मा, नयाँ वर्षको पूर्वसन्ध्यामा 1:00 बजे, DeepSeek Janus-Pro खुला स्रोतको रूपमा जारी गरिएको थियो। यो पुरातन रोमन पौराणिक कथामा दुई-मुखी देवता जानसको नाममा राखिएको बहुविध मोडेल हो: यसले भूत र भविष्य दुवैको सामना गर्दछ। यसले मोडेलको दुई क्षमताहरू - दृश्य बुझाइ र छवि उत्पादन - र बहु र्याङ्किङहरूमा यसको प्रभुत्व पनि प्रतिनिधित्व गर्दछ।

DeepSeek को विस्फोटक लोकप्रियताले तुरुन्तै विश्वव्यापी टेक्नोलोजी शॉकवेभलाई ट्रिगर गर्‍यो, जसले गर्दा NVIDIA को स्टक मूल्य 18% घट्यो, र विश्वव्यापी टेक्नोलोजी स्टक बजारको बजार मूल्य लगभग 1 ट्रिलियन अमेरिकी डलरले वाष्पीकरण भयो। वाल स्ट्रिट र टेक्नोलोजी मिडियाले DeepSeek को उदयले विश्वव्यापी एआई उद्योग परिदृश्यलाई बिगार्दैछ र अमेरिकी टेक्नोलोजी दिग्गजहरूका लागि अभूतपूर्व चुनौती खडा गरेको छ।

DeepSeek को सफलताले उच्च अन्तर्राष्ट्रिय ध्यानाकर्षण पनि गराएको छ र चीनको एआई प्राविधिक नवप्रवर्तन क्षमताहरूको बारेमा तातो छलफल भएको छ। अमेरिकी राष्ट्रपति डोनाल्ड ट्रम्प, एक दुर्लभ सार्वजनिक टिप्पणी मा, DeepSeek को वृद्धि "सकारात्मक" को रूप मा प्रशंसा गरे र यो संयुक्त राज्य को लागी "ब्यूँझने कल" हो भने। माइक्रोसफ्टका सीईओ सत्य नडेला र ओपनएआईका सीईओ सैम अल्टम्यानले पनि DeepSeek को प्रशंसा गर्दै यसको प्रविधिलाई "धेरै प्रभावशाली" भने।

निस्सन्देह, हामीले यो पनि बुझ्नुपर्छ कि तिनीहरूको प्रशंसा आंशिक रूपमा DeepSeek को शक्तिको पहिचान हो, र आंशिक रूपमा तिनीहरूको आफ्नै मनसायको प्रतिबिम्ब हो। उदाहरणका लागि, एन्थ्रोपिकले DeepSeek को उपलब्धिहरूलाई मान्यता दिँदा, यसले अमेरिकी सरकारलाई चीनमा चिप नियन्त्रणहरू बलियो बनाउन पनि आह्वान गरिरहेको छ।

एन्थ्रोपिक सीईओले 10,000-शब्द लेख प्रकाशित गर्दछ: DeepSeek को उदय भनेको ह्वाइट हाउसले नियन्त्रण बढाउनु पर्छ

सारांश र दृष्टिकोण

DeepSeek को विगत दुई वर्षलाई फर्केर हेर्दा, यो वास्तवमै "चिनियाँ चमत्कार" भएको छ: अज्ञात स्टार्टअपदेखि "रहस्यमय पूर्वी शक्ति" सम्म जुन अहिले विश्वव्यापी AI मञ्चमा चम्किरहेको छ, DeepSeek ले एकपछि अर्को "असम्भव" लेख्दै आएको छ। शक्ति र नवीनता।

यस प्राविधिक अभियानको गहिरो अर्थ लामो समयदेखि व्यावसायिक प्रतिस्पर्धाको दायरा पार गरिसकेको छ। DeepSeek ले तथ्य सहित घोषणा गरेको छ कृत्रिम बुद्धिमत्ताको रणनीतिक क्षेत्रमा जुन भविष्यसँग सम्बन्धित छ, चिनियाँ कम्पनीहरू मुख्य प्रविधिको उचाइमा चढ्न पूर्ण रूपमा सक्षम छन्।

ट्रम्पले बजाएको "अलार्म घण्टी" र एन्थ्रोपिकको लुकेको डरले चीनको एआई क्षमताहरूको महत्त्वलाई ठ्याक्कै पुष्टि गर्छ: यसले छालहरूमा सवारी मात्र गर्न सक्दैन, तर यसले ज्वारको दिशालाई पनि आकार दिइरहेको छ।

गहिरो खोज उत्पादन जारी गर्नुहोस् माइलस्टोनहरू

  • नोभेम्बर २, २०२३: DeepSeek कोडर ठूलो मोडेल
  • नोभेम्बर २९, २०२३: DeepSeek LLM 67B युनिभर्सल मोडेल
  • डिसेम्बर १८, २०२३: DreamCraft3D 3D मोडेल
  • जनवरी ११, २०२४: DeepSeekMoE MoE ठूलो मोडेल
  • फेब्रुअरी ५, २०२४: DeepSeekMath गणितीय तर्क मोडेल
  • मार्च ११, २०२४: DeepSeek-VL मल्टीमोडल ठूलो मोडेल
  • मे २०२४: DeepSeek-V2 MoE सामान्य मोडेल
  • जुन १७, २०२४: DeepSeek कोडर V2 कोड मोडेल
  • सेप्टेम्बर ६, २०२४: सामान्य र कोड योग्यता मोडेलहरूको DeepSeek-V2.5 फ्यूजन
  • डिसेम्बर १३, २०२४: DeepSeek-VL2 बहुविध MoE मोडेल
  • डिसेम्बर २६, २०२४: DeepSeek-V3 सामान्य-उद्देश्य ठूला मोडेलहरूको नयाँ श्रृंखला
  • जनवरी २०, २०२५: DeepSeek-R1 अनुमान मोडेल
  • जनवरी २०, २०२५: DeepSeek आधिकारिक एप (आईओएस र एन्ड्रोइड)
  • जनवरी २७, २०२५: १TP8T जानुस-प्रो मल्टिमोडल मोडेल

समान पोस्टहरू

जवाफ लेख्नुहोस्

तपाईँको इमेल ठेगाना प्रकाशित गरिने छैन। अनिवार्य फिल्डहरूमा * चिन्ह लगाइएको छ