१TP८T-R१ प्रविधिको खुलासा: पेपरका मुख्य सिद्धान्तहरू तोडिएका छन् र सफलतापूर्वक मोडेल प्रदर्शनको कुञ्जी प्रकट गरिएको छ

आज हामी साझा गर्नेछौं DeepSeek R1, शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन: सुदृढीकरण सिकाइ मार्फत LLM को तर्क क्षमतालाई प्रोत्साहन।

यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू प्रस्तुत गर्दछ, १TP8T-R1-शून्य र DeepSeek-R1। DeepSeek-R1-शून्य मोडेललाई निम्न मार्फत प्रशिक्षित गरिएको थियो: आरएलको सम्भाव्यता र उत्कृष्ट तर्क क्षमताहरू प्रदर्शन गर्दै, सुपरिवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो स्तरको सुदृढीकरण सिकाइ (RL) यसले ल्याउँछ। सुदृढीकरण सिकाइ मार्फत, DeepSeek-R1-शून्य स्वाभाविक रूपमा धेरै शक्तिशाली र रोचक तर्क व्यवहारहरू सहित देखा पर्‍यो।। R1-Zero (भाषिक भ्रम, सुधारिएको सामान्यीकरण क्षमता) सँग सम्बन्धित केही समस्याहरूलाई अझ अनुकूलन गर्न, तिनीहरूले जारी गरे DeepSeek-R1, जसले सुदृढीकरण सिकाइ अघि बहु-चरणीय प्रशिक्षण र कोल्ड-स्टार्ट डेटा फाइन-ट्युनिङलाई संयोजन गर्दछ। DeepSeek-R1 ले तुलनात्मक प्रदर्शन हासिल गर्‍यो। OpenAI-01-1217 सँग तर्क कार्यमा। अनुसन्धान समुदायलाई समर्थन गर्न, तिनीहरूले खुला स्रोत DeepSeek-R1-शून्य, DeepSeek-R1, र छवटा घन मोडेलहरू (1.5B, 7B, 8B, 14B, 32B, 70B) DeepSeek-R1 बाट डिस्टिल्ड गरिएको, जुन Qwen र Llama मा आधारित छन्।.

यस विधिका विशेषताहरूलाई निम्नानुसार संक्षेपमा प्रस्तुत गरिएको छ:

सुदृढीकरण सिकाइ सिधै आधार मोडेलमा लागू गरिन्छ, प्रारम्भिक चरणको रूपमा सुपरिवेक्षित फाइन-ट्युनिङ (SFT) मा भर नपरिकन।
DeepSeek-R1 विकास प्रक्रिया प्रस्तुत गरिएको छ, जुन मोडेलको तर्क र गैर-तर्क क्षमताहरूको जग बसाल्न दुई सुदृढीकरण सिकाइ चरणहरू र दुई पर्यवेक्षित फाइन-ट्युनिङ चरणहरू संयोजन गर्दछ।.
ठूला मोडेलहरूको तर्क ढाँचाहरूलाई साना मोडेलहरूमा स्थानान्तरण गरेर तर्क कार्यहरूमा साना मोडेलहरूको प्रदर्शन सुधार गरिन्छ आसवन प्रविधिहरू।

सामग्रीको तालिका

अवलोकन

शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन गर्दै
लेखकहरू: DeepSeek-AI को लागि सोधपुछ पेश गर्नुहोस्, हामी तपाईंलाई 24 घण्टामा सम्पर्क गर्नेछौं।
गिथब: १TP1T को परिचय

प्रेरणा

हालका ठूला भाषा मोडेलहरू (LLMs) ले अनुमान कार्यहरूमा उल्लेखनीय प्रगति गरेका छन्, तर अझै पनि चुनौतीहरूको सामना गर्छन्।
शुद्धताको सम्भावना LLM हरूको तर्क क्षमता सुधार गर्न सुदृढीकरण सिकाइ (RL) पूर्ण रूपमा अन्वेषण गरिएको छैन।, विशेष गरी पर्यवेक्षित डेटामा भर नपरिकन।
RL मार्फत प्रशिक्षित मोडेलहरू, जस्तै १TP8T-R1-शून्य, पठनीयता र भाषा मिश्रणमा समस्याहरू छन् (जस्तै, चिनियाँ र अंग्रेजी मिश्रित बोल्ने), र प्रयोगकर्ता-मैत्री सुधार गर्न थप सुधार आवश्यक छ।.

विधिहरू

१TP8T-R1-शून्य: आधार मोडेलको रूपमा DeepSeek-V3-Base प्रयोग गर्दछ, र सुदृढीकरण सिकाइको रूपमा GRPO (समूह सापेक्ष नीति अनुकूलन) रूपरेखा, अनुमानमा मोडेलको कार्यसम्पादन सुधार गर्न पर्यवेक्षित डेटा बिना.

१TP8T-R1:

कोल्ड स्टार्ट: थोरै मात्रामा उच्च-गुणस्तरको लामो CoT (चेन-अफ-थट) डेटा सङ्कलन गर्दछ र फाइन-ट्यून गर्दछ १TP8T-V3-आधार मोडेल सुदृढीकरण सिकाइको लागि प्रारम्भिक अभिनेताको रूपमा।
तर्क-उन्मुख सुदृढीकरण सिकाइ: उस्तै DeepSeek-R1-शून्यको रूपमा सुदृढीकरण सिकाइ प्रशिक्षण प्रक्रिया लागू गरिएको छ, तर मोडेलको तर्क क्षमता बढाउनमा केन्द्रित छ। कोडिङ, गणित, विज्ञान र तार्किक तर्क जस्ता क्षेत्रहरूमा। CoT मा हुने भाषिक मिश्रणको समस्यालाई कम गर्न भाषिक स्थिरता पुरस्कारहरू प्रस्तुत गरिन्छ।
अस्वीकृति नमूना र सुपरिवेक्षित फाइन-ट्यूनिंग: सुदृढीकरण सिकाइको अभिसरणित चेकपोइन्ट प्रयोग गर्दछ सुपरभाइज्ड फाइन-ट्युनिङ (SFT) डेटा सङ्कलन गर्नुहोस् पछिको तालिमको लागि।
सबै परिदृश्यहरूको लागि सुदृढीकरण सिकाइ: दोस्रो-स्तरको सुदृढीकरण सिकाइ चरण लागू गर्दछ, जसको उद्देश्य सुधार गर्नु हो मोडेलको उपयोगीता र हानिरहिततालाई ध्यानमा राख्दै यसको तर्क क्षमतालाई अनुकूलन गर्दछ।
ज्ञान आसवन: DeepSeek-R1 द्वारा क्युरेट गरिएका ८००k नमूनाहरू प्रयोग गरेर खुला स्रोत मोडेलहरू क्वेन र लामालाई सिधै फाइन-ट्यून गर्दछ।

विस्तृत विधि र प्रक्रियाहरू:

१TP8T-R1-शून्य: आधार मोडेलहरूको लागि सुदृढीकरण सिकाइ

सुदृढीकरण सिकाइ एल्गोरिथ्म: समूह सापेक्ष नीति अनुकूलन (GRPO) एल्गोरिथ्म प्रयोग गर्दछ, जुन आवश्यक पर्दैन आलोचक मोडेल, समूह स्कोर द्वारा आधाररेखा अनुमान, र प्रशिक्षण लागत घटाउँछ.
पुरस्कार मोडलिङ: प्रयोग गर्दछ a नियममा आधारित पुरस्कार प्रणाली, सहित

शुद्धता पुरस्कार: उत्तर सही छ कि छैन भनेर मूल्याङ्कन गर्छ, जस्तै अन्तिम नतिजाको शुद्धता गणित समस्या उत्तर, कोड समस्याहरूको लागि कम्पाइलरबाट प्रतिक्रिया.
पुरस्कारको ढाँचा: मोडेललाई प्रोत्साहित गर्दछ सोच प्रक्रियालाई बीचमा राख्नुहोस् र ट्यागहरू.

तालिम टेम्प्लेट: समावेश भएको टेम्प्लेट र ट्यागहरू डिजाइन गरिएको छ मोडेललाई पहिले सोच प्रक्रिया आउटपुट गर्न मार्गदर्शन गर्नुहोस्, र त्यसपछि अन्तिम उत्तर दिनुहोस्।.

स्व-विकास प्रक्रिया: १TP8T-R1-शून्य प्रदर्शन गरियो तालिमको क्रममा आत्म-विकासवादी विशेषताहरू, र धेरै समस्या समाधान गर्ने मार्गहरूको प्रतिबिम्ब र अन्वेषण जस्ता थप जटिल तर्क रणनीतिहरू स्वायत्त रूपमा सिक्न सक्षम थिए।.

DeepSeek-R1: कोल्ड स्टार्टसँग मिलेर सुदृढीकरण सिकाइ

चिसो सुरु: DeepSeek-R1-शून्य समाधान गर्न पढ्न योग्यता समस्या, DeepSeek-R1 ले पहिले थोरै मात्रामा सङ्कलन गर्छ उच्च गुणस्तरको CoT डेटा र DeepSeek-V3-बेस मोडेललाई फाइन-ट्यून गर्दछ सुदृढीकरण सिकाइको लागि प्रारम्भिक अभिनेताको रूपमा सेवा गर्नुहोस्। कोल्ड स्टार्ट डेटा सारांश ट्यागहरू र अनुपयुक्त जवाफहरू समावेश गर्दछ फिल्टर गरिएका हुन्छन्।
- विधि: १) उच्च गुणस्तरको लामो COT डेटा चयन गर्नुहोस्। २) थप्नुहोस् र ट्याग गर्नुहोस्।
- फाइदाहरू: १) अनुकूलित पठनीयता (R1-Zero को बहुभाषी समस्या वा मार्कडाउन ढाँचा समस्या समाधान गर्नुहोस्)। २) ध्यानपूर्वक चयन गरिएको मानव-रुचाइएको डेटाले R1-Zero मा प्रदर्शन सुधार गर्न जारी राख्न सक्छ।
- प्रश्न: पठनीयताको समस्या किन समाधान गर्ने? के यसलाई समाधान नगरी राम्रो गर्न सम्भव छैन (जस्तै, आउटपुटको लम्बाइ घटाउने र अझ कुशलतापूर्वक अनुमान लगाउने)?
तर्क-उन्मुख RL: कोल्ड-स्टार्ट मोडेलमा आधारित, जस्तै सुदृढीकरण सिकाइ प्रक्रिया कोडिङ, गणित, वैज्ञानिक र तार्किक तर्क जस्ता कार्यहरूमा मोडेलको क्षमता सुधार गर्नमा केन्द्रित हुँदै, DeepSeek-R1-शून्य लागू गरिएको छ।मिश्रित भाषाहरूको समस्या समाधान गर्न (बहुभाषिक तर्क), भाषा एकरूपता पुरस्कारहरू परिचय गराइन्छ।
- प्रश्न: वैज्ञानिक र तार्किक तर्क कार्यहरू र डेटासेटहरू कसरी प्रशिक्षित गरिन्छ?
अस्वीकृति नमूना र SFT: अनुमान-निर्देशित सुदृढीकरण सिकाइ अभिसरण भएपछि, प्राप्त चेकपोइन्टको लागि प्रयोग गरिन्छ नयाँ SFT डेटा उत्पन्न गर्न अस्वीकृति नमूना, जुन DeepSeek-V3 को डेटासँग मिलाएर लेखन, भूमिका खेल्ने, र सामान्य कार्यहरूमा मोडेलको क्षमताहरू बढाउन प्रयोग गरिन्छ।
- उद्देश्य:
  - यो चरण पछि सुरु हुन्छ अनुमान-उन्मुख सुदृढीकरण सिकाइ (RL) प्रक्रिया अभिसरण हुन्छ.
  - मुख्य उद्देश्य भनेको सुपरिवेक्षित फाइन-ट्युनिङ (SFT) डेटा सङ्कलन गर्नुहोस् पछिल्ला प्रशिक्षण राउन्डहरूमा प्रयोगको लागि।
  - प्रारम्भिक कोल्ड-स्टार्ट डेटाको विपरीत, जुन केवल अनुमानमा केन्द्रित हुन्छ, यो चरणको उद्देश्य मोडेलको क्षमता विस्तार गर्नुहोस् लेखन, भूमिका-निभाउने र अन्य सामान्य-उद्देश्य कार्यहरू समेट्न, केवल अनुमान मात्र होइन।
- तथ्याङ्क सङ्कलन - अनुमान तथ्याङ्क:
  - विधि: अस्वीकृति नमूनाद्वारा अनुमान प्रक्षेपणहरू उत्पन्न गर्न अनुमान-उन्मुख RL चरणबाट प्राप्त चेकपोइन्टहरू प्रयोग गर्नुहोस्।
  - डेटा सेट विस्तार: अघिल्लो RL चरणको विपरीत, जसले नियम-आधारित पुरस्कार डेटा मात्र प्रयोग गर्थ्यो, गैर-नियम-आधारित पुरस्कार डेटा यहाँ प्रस्तुत गरिएको छ। केही अवस्थामा, प्रतिक्रिया निर्धारण गर्न जेनेरेटिभ पुरस्कार मोडेल (DeepSeek-V3) प्रयोग गरिन्छ।
  - डेटा फिल्टरिङ: गुणस्तर र पठनीयता सुनिश्चित गर्न, आउटपुट हटाउन फिल्टर गरिएको छ:
    - मिश्रित भाषाहरू समावेश गर्ने विचार शृङ्खलाहरू
    - लामो अनुच्छेदहरू
    - कोड ब्लकहरू
  - नमुना संकलन र छनोट: प्रत्येक प्रम्प्टको लागि, धेरै प्रतिक्रियाहरू उत्पन्न गरियो। डेटासेटको लागि केवल "सही" प्रतिक्रिया राखिएको थियो।
  - डेटासेट आकार: लगभग ६,००,००० अनुमान-सम्बन्धित प्रशिक्षण नमूनाहरू यसरी सङ्कलन गरिएको थियो।
- डेटा सङ्कलन - गैर-अनुमान डेटा:
  - कभरेज: लेखन, तथ्यपरक प्रश्न उत्तर (QA), आत्म-जागरूकता र अनुवाद।
  - उक्त पत्रमा प्रयोगको उल्लेख छ DeepSeek-V3 को प्रक्रिया र DeepSeek-V3 SFT डेटासेटको भाग पुन: प्रयोग गर्दछ यी गैर-अनुमान कार्यहरू ह्यान्डल गर्न। बारेमा २००,००० अनुमान-स्वतन्त्र नमूनाहरू सङ्कलन गरिएको थियो। (नोट: गैर-अनुमान डेटाको सङ्कलनको विवरण खण्ड २.३.४ मा थप वर्णन गरिएको छ)
- सङ्कलन गरिएको तथ्याङ्कको प्रयोग:
  - त्यसपछि सङ्कलन गरिएको तर्क र गैर-तर्क डेटा (कुल लगभग ८००,००० नमूनाहरू - ६००,००० तर्क नमूनाहरू + २००,००० गैर-तर्क नमूनाहरू) प्रयोग गरियो। दुई युगहरूको लागि DeepSeek-V3-बेस मोडेललाई फाइन-ट्यून गर्नुहोस्। यो फाइन-ट्युन गरिएको मोडेल त्यसपछि खण्ड २.३.४ मा वर्णन गरिएको अन्तिम RL चरणमा प्रयोग गरिएको थियो।
- सारांश यो चरणले अनुमान क्षमताहरू प्रयोग गर्दछ। विविध र उच्च-गुणस्तरको SFT डेटासेट उत्पन्न गर्न RL मार्फत सिकिएको। यो डेटासेटले अनुमान क्षमताहरूलाई बलियो बनाउँछ र सामान्य क्षमताहरूलाई पनि विस्तार गर्दछ। अन्तिम पङ्क्तिबद्धता र सुधार चरणमा प्रशिक्षणको लागि मोडेल।
सबै परिदृश्यहरूको लागि सुदृढीकरण सिकाइ: मानव प्राथमिकताहरूलाई थप मिलाउन, मोडेलको उपयोगीता र हानिरहितता सुधार गर्न सुदृढीकरण सिकाइको दोस्रो चरण लागू गरिएको छ।
- अनुमान डेटा: जस्तै गणित, कोड, तार्किक अनुमान वा नियम आधार विधिहरूद्वारा सुपरिवेक्षण गरिएको।
- सामान्य डेटा: जटिल र सूक्ष्म परिदृश्यहरूको लागि प्राथमिकता जानकारी प्रदान गर्न पुरस्कार मोडेलहरू अझै पनि प्रयोग गरिन्छ। जोडी अनुसार डेटाको साथ प्रशिक्षित मोडेलहरू पनि अनुमानित छन्।
- उपयोगिता: अनुमान प्रक्रियामा हस्तक्षेप कम गर्दै, अन्तिम सारांश परिणामहरूमा मात्र ध्यान केन्द्रित गर्नुहोस्।
- हानिरहितता: कुनै पनि जोखिम कम गर्न सम्पूर्ण प्रतिक्रियाको निरीक्षण गर्नुहोस्।

मोडेल आसवन (आसवन):

अझ प्रभावकारी सानो अनुमान मोडेल प्राप्त गर्न, पेपरले DeepSeek-R1 को अनुमान क्षमतालाई क्वेन र लामा श्रृंखलाको खुला स्रोत मोडेलहरूमा डिस्टिल्ड गर्दछ। आसवन प्रक्रिया सुपरिवेक्षित फाइन-ट्युनिङ (SFT) मात्र प्रयोग गर्दछ। र सुदृढीकरण सिकाइ चरण प्रयोग गर्दैन।

निष्कर्ष

१TP8T-R1-शून्य: को सम्भावना प्रदर्शन गर्दछ LLM अनुमान क्षमतालाई उत्प्रेरित गर्न शुद्ध सुदृढीकरण सिकाइ, र बलियो प्रदर्शन हासिल गर्न सक्छ निरीक्षण गरिएको डेटामा भर नपरिकन।

आहा-क्षण: सुदृढीकरण सिकाइको सुन्दरता (मोडेलको ज्ञानको क्षण, जहाँ यो पुन: मूल्याङ्कन गर्न सिकेर समस्याको लागि बढी सोच्ने समय छुट्याउँछ प्रारम्भिक दृष्टिकोण)
आउटपुट लम्बाइ बढ्दै जान्छ (सोच्ने समय बढ्दै जान्छ)
शुद्धतामा सुधार हुँदै गइरहेको छ (शुद्धता गणना गर्न १६ प्रतिक्रियाहरूको नमूना लिँदै)

DeepSeek-R1: कोल्ड-स्टार्ट डेटा र पुनरावृत्ति सुदृढीकरण सिकाइ फाइन-ट्युनिङ संयोजन गरेर मोडेल कार्यसम्पादनलाई थप सुधार गर्छ, विभिन्न कार्यहरूमा OpenAI-01-1217 सँग तुलना गर्न सकिने स्तर हासिल गर्दै.

ज्ञान आसवन: शिक्षक मोडेलको रूपमा DeepSeek-R1 प्रयोग गरेर, 800K प्रशिक्षण नमूनाहरू उत्पन्न गरियो र धेरै साना, घना मोडेलहरूलाई राम्रोसँग मिलाइएको थियो। परिणामहरूले देखाउँछन् कि यो आसवन विधिले अनुमान क्षमतामा उल्लेखनीय सुधार गर्न सक्छ साना मोडेलहरू।

सीमा

सीमा १: १TP8T-R1 को सामान्य क्षमतामा सुधार गर्न आवश्यक छ। फंक्शन कल, मल्टि-टर्न संवाद, जटिल भूमिका खेल्ने, र JSON आउटपुट जस्ता कार्यहरूमा DeepSeek-R1 अझै पनि DeepSeek-V3 भन्दा कम छ।
सीमा २: भाषा मिश्रण समस्या। DeepSeek-R1 ले गैर-चिनियाँ र गैर-अंग्रेजी प्रश्नहरू प्रशोधन गर्दा भाषा मिश्रण समस्याको सामना गर्न सक्छ, उदाहरणका लागि, तर्क गर्दा र अंग्रेजीमा जवाफ दिँदा।
सीमा ३: संवेदनशीलतालाई तीव्र बनाउनुहोस्। DeepSeek-R1 प्रम्प्ट शब्दहरूप्रति संवेदनशील छ, र थोरै-शट प्रम्प्टिङले यसको कार्यसम्पादन कम गर्नेछ।
सीमा ४: सफ्टवेयर इन्जिनियरिङ कार्यहरूमा सीमित प्रयोग। लामो मूल्याङ्कन समयको कारणले गर्दा, सफ्टवेयर इन्जिनियरिङ कार्यहरूमा ठूलो मात्रामा सुदृढीकरण सिकाइ पूर्ण रूपमा लागू गरिएको छैन, र सफ्टवेयर इन्जिनियरिङ बेन्चमार्कहरूमा DeepSeek-R1 ले DeepSeek-V3 भन्दा सीमित सुधार गरेको छ।

अवर्गीकृत

Qwen2.5-max vs DeepSeek R1: मोडेलहरूको गहिरो तुलना: अनुप्रयोग परिदृश्यहरूको पूर्ण विश्लेषण

द्वाराzddeepseeker फेब्रुअरी १४, २०२५फेब्रुअरी १४, २०२५

परिचय आज, ठूला भाषा मोडेलहरू (LLMs) ले महत्त्वपूर्ण भूमिका खेल्छन्। २०२५ को सुरुमा, AI को लागि प्रतिस्पर्धा तीव्र हुँदै जाँदा, Alibaba ले नयाँ Qwen2.5-max AI मोडेल लन्च गर्‍यो, र चीनको हांग्जोको कम्पनी DeepSeek ले R1 मोडेल लन्च गर्‍यो, जसले LLM प्रविधिको शिखर प्रतिनिधित्व गर्दछ। Deepseek R1 एक खुला स्रोत AI मोडेल हो जसले आकर्षित गरेको छ...

अवर्गीकृत

गुगलको कम लागतको मोडेल, जेमिनी २.० शृङ्खला, आक्रमण गर्दैछ: ठूला मोडेलहरूमा लागत-प्रभावकारिताको लागि लडाईं तीव्र हुँदैछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

ठूला एआई मोडेलहरू प्रयोग गर्ने उच्च लागत धेरै एआई अनुप्रयोगहरू अझै कार्यान्वयन र प्रवर्द्धन नगर्नुको प्रमुख कारण हो। चरम प्रदर्शन छनौट गर्नु भनेको ठूलो कम्प्युटिङ पावर लागत हो, जसले गर्दा उच्च उपयोग लागतहरू हुन्छन् जुन सामान्य प्रयोगकर्ताहरूले स्वीकार गर्न सक्दैनन्। ठूला एआई मोडेलहरूको लागि प्रतिस्पर्धा धुवाँ बिनाको युद्ध जस्तै हो। पछि…

अवर्गीकृत

पेपर-DeepSeek-R1: सुदृढीकरण शिक्षा मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन गर्दै

द्वारा1TP7 टेर जनवरी २९, २०२५जनवरी २९, २०२५

सार यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू प्रस्तुत गर्दछ: DeepSeek-R1-Zero र DeepSeek-R1। DeepSeek-R1-Zero, सुपरिवेक्षण गरिएको फाइन-ट्युनिङ (SFT) बिना ठूलो-स्तरीय सुदृढीकरण शिक्षा (RL) मार्फत प्रशिक्षित, उल्लेखनीय तर्क क्षमताहरू प्रदर्शन गर्दछ। RL मार्फत, यसले स्वाभाविक रूपमा शक्तिशाली तर्क व्यवहार विकास गर्दछ। यद्यपि, यसले कमजोर पठनीयता र भाषा मिश्रण जस्ता चुनौतीहरूको सामना गर्दछ। यी मुद्दाहरूलाई सम्बोधन गर्न र तर्क प्रदर्शन बढाउन, DeepSeek-R1 विकसित गरिएको थियो,…

अवर्गीकृत

DeepSeek ले आफ्नो स्रोत कोड, FlashMLA को विस्तृत व्याख्या जारी गरेको छ।

द्वाराzddeepseeker फेब्रुअरी २४, २०२५फेब्रुअरी २४, २०२५

गत हप्ता, DeepSeek ले अर्को हप्ता पाँचवटा परियोजनाहरू ओपन सोर्स गर्ने घोषणा गर्‍यो: नेटिजनहरूले भने, "यस पटक, OpenAI साँच्चै यहाँ छ।" भर्खरै, पहिलो खुला स्रोत परियोजना आयो, अनुमान त्वरणसँग सम्बन्धित, FlashMLA: खुला स्रोत परियोजना ठेगाना: DeepSeek FlashMLA यो दुई घण्टादेखि खुला स्रोत भएको छ, र Github मा पहिले नै 2.7k+ ताराहरू छन्: द…

अवर्गीकृत

२७ वर्षीय सीईओसँग a16z संवाद: एआई एजेन्टको ठूलो लाभ प्रभाव छ, र दीर्घकालीन मूल्य निर्धारण श्रम लागतसँग जोडिएको हुनेछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

हाइलाइटहरू एआई एजेन्टले ग्राहकको अनुभवलाई पुन: आकार दिन्छ जेसी झाङ: एजेन्ट वास्तवमा कसरी निर्माण गरिन्छ? हाम्रो विचार यो छ कि समयसँगै, यो प्राकृतिक भाषा-आधारित एजेन्ट जस्तै हुँदै जानेछ किनभने ठूला भाषा मोडेलहरू (LLMs) लाई यसरी नै तालिम दिइन्छ। लामो अवधिमा, यदि तपाईंसँग एक सुपर बुद्धिमान एजेन्ट छ भने ...

अवर्गीकृत

FlashMLA भनेको के हो? AI डिकोडिङ कर्नेलहरूमा यसको प्रभावको लागि एक विस्तृत गाइड

द्वारा1TP7 टेर फेब्रुअरी २४, २०२५फेब्रुअरी २४, २०२५

FlashMLA ले कृत्रिम बुद्धिमत्ताको संसारमा, विशेष गरी ठूला भाषा मोडेलहरू (LLMs) को क्षेत्रमा द्रुत रूपमा ध्यान आकर्षित गरेको छ। DeepSeek द्वारा विकसित यो नवीन उपकरणले Hopper GPU हरूको लागि डिजाइन गरिएको एक अनुकूलित डिकोडिङ कर्नेलको रूपमा काम गर्दछ - उच्च-प्रदर्शन चिपहरू जुन सामान्यतया AI गणनाहरूमा प्रयोग गरिन्छ। FlashMLA ले चर-लम्बाइ अनुक्रमहरूको कुशल प्रशोधनमा केन्द्रित छ, यसलाई विशेष रूपमा राम्रोसँग उपयुक्त बनाउँछ...

अवलोकन

प्रेरणा

विधिहरू

निष्कर्ष

सीमा

समान पोस्टहरू

जवाफ लेख्नुहोस् जवाफ रद्द गर्नुहोस्

जवाफ लेख्नुहोस्