हामी मध्ये कसैले पनि AI क्षेत्रमा २०२५ को सुरुवात यसरी हुनेछ भन्ने आशा गरेका थिएनौं।

DeepSeek R1 साँच्चै अचम्मको छ!

हालै, "रहस्यमय पूर्वी शक्ति" DeepSeek सिलिकन भ्याली "कडा नियन्त्रण" भएको छ।

मैले R1 लाई पाइथागोरस प्रमेयको विस्तृत व्याख्या गर्न सोधें। यो सबै AI द्वारा बिना कुनै गल्ती 30 सेकेन्ड भन्दा कममा गरेको थियो। छोटकरीमा, यो सकियो।

स्वदेशी र विदेशी एआई सर्कलहरूमा, साधारण नेटिजन्सहरूले अद्भुत र शक्तिशाली नयाँ एआई (जुन खुला स्रोत पनि हो) पत्ता लगाएका छन्, र शैक्षिक विशेषज्ञहरूले "हामीले समात्नै पर्छ" भनेर चिच्याएका छन्। विदेशी एआई कम्पनीहरू पहिले नै ठूलो खतराको सामना गरिरहेका छन् भन्ने सुनुवाइ पनि छ।

यस हप्ता जारी गरिएको यो DeepSeek R1 मात्र लिनुहोस्। कुनै पर्यवेक्षित प्रशिक्षण बिना यसको शुद्ध सुदृढीकरण सिकाउने मार्ग स्तब्ध छ। गत वर्ष डिसेम्बरमा Deepseek-v3 आधारको विकासदेखि लिएर OpenAI o1 सँग तुलना गर्न मिल्ने वर्तमान सोच श्रृंखला क्षमताहरू सम्म, यो समयको कुरा हो जस्तो देखिन्छ।

तर जब एआई समुदाय प्राविधिक रिपोर्टहरू पढ्न र वास्तविक मापनहरू तुलना गर्न व्यस्त छ, मानिसहरूलाई अझै पनि R1 को बारेमा शंका छ: बेन्चमार्कहरूको गुच्छालाई बाहिर निकाल्न सक्षम हुनु बाहेक, के यसले वास्तवमै नेतृत्व गर्न सक्छ?

के यसले "भौतिक नियमहरू" को आफ्नै सिमुलेशनहरू निर्माण गर्न सक्छ?

तपाईलाई विश्वास लाग्दैन? ठूला मोडेललाई पिनबलसँग खेल्न दिनुहोस्?

हालैका दिनहरूमा, एआई समुदायका केही मानिसहरू एक परीक्षणको साथ पागल भएका छन् - समस्या समाधान गर्न विभिन्न एआई ठूला मोडेलहरू (विशेष गरी तथाकथित तर्क मोडेलहरू) परीक्षण गर्दै: “एक निश्चित भित्र पहेँलो बल बाउन्स बनाउन पाइथन लिपि लेख्नुहोस्। आकार। आकारलाई बिस्तारै घुमाउनुहोस् र बल आकार भित्र रहन्छ भनेर सुनिश्चित गर्नुहोस्।"

केही मोडेलहरूले यस "घुमाउने बल" बेन्चमार्कमा अरूलाई पछाडि पार्छन्। CoreView CTO Ivan Fioravanti का अनुसार, DeepSeek, एक घरेलु कृत्रिम बुद्धिमत्ता प्रयोगशाला, खुला स्रोत ठूलो मोडेल R1 छ जसले OpenAI को o1 प्रो मोडेललाई हराउँछ, जसको लागत OpenAI को ChatGPT Pro कार्यक्रमको भागको रूपमा प्रति महिना $200 हुन्छ।

बायाँमा OpenAI o1 छ, र दायाँमा DeepSeek R1 छ। माथि उल्लेख गरिए अनुसार, यहाँ प्रम्प्ट छ: "वर्ग भित्र उछालिएको पहेंलो बलको लागि पाइथन स्क्रिप्ट लेख्नुहोस्, टक्कर पत्ता लगाउने कार्यलाई राम्रोसँग ह्यान्डल गर्न सुनिश्चित गर्नुहोस्। वर्गलाई बिस्तारै घुमाउनुहोस्। यसलाई python मा लागू गर्नुहोस्। निश्चित गर्नुहोस् कि बल स्क्वायर भित्र रहन्छ।"

X मा अर्को प्रयोगकर्ताका अनुसार, एन्थ्रोपिक क्लाउड 3.5 सोननेट र गुगलको जेमिनी 1.5 प्रो मोडेलहरूले भौतिक सिद्धान्तहरूको बारेमा गलत निर्णय गरे, जसले गर्दा बल यसको आकारबाट विचलित भयो। केही प्रयोगकर्ताहरूले यो पनि रिपोर्ट गरेका छन् कि गुगलको नवीनतम जेमिनी 2.0 फ्ल्याश थिंकिङ प्रायोगिक, साथै तुलनात्मक रूपमा पुरानो OpenAI GPT-4o ले एकैचोटि मूल्याङ्कन पास गरेको छ।

तर यहाँ फरक बताउन एक तरिका छ:

यस ट्वीट अन्तर्गत नेटिजन्सहरूले भने: o1 को क्षमता सुरुमा धेरै राम्रो थियो, तर $200/महिना सदस्यता संस्करणको साथ पनि ओपनएआईले गतिलाई अनुकूलित गरेपछि यो कमजोर भयो।

एक उछाल बल अनुकरण एक क्लासिक प्रोग्रामिङ चुनौती हो। सही सिमुलेशनले टक्कर पत्ता लगाउने एल्गोरिदमहरू संयोजन गर्दछ, जसले दुई वस्तुहरू (जस्तै बल र आकारको छेउ) टक्कर हुँदा पहिचान गर्न आवश्यक छ। अनुचित रूपमा लिखित एल्गोरिदमले सिमुलेशनको कार्यसम्पादनलाई असर गर्न सक्छ वा स्पष्ट भौतिक त्रुटिहरू निम्त्याउन सक्छ।

एआई स्टार्टअप नोस रिसर्चका अनुसन्धानकर्ता N8 प्रोग्राम्सले भने कि उनलाई स्क्र्याचबाट घुम्ने हेप्टागनमा उछालिएको बल लेख्न करिब दुई घण्टा लाग्यो। "बहु समन्वय प्रणालीहरू ट्र्याक गरिनु पर्छ, प्रत्येक प्रणालीमा टक्करहरू कसरी ह्यान्डल गरिन्छ भन्ने बुझाइ आवश्यक छ, र कोडलाई बलियो हुन स्क्र्याचबाट डिजाइन गरिएको हुनुपर्छ।"

यद्यपि बाउनिङ बलहरू र स्पिनिङ आकारहरू प्रोग्रामिङ सीपहरूको एक उचित परीक्षण हो, तिनीहरू अझै पनि ठूला मोडेलहरूको लागि नयाँ परियोजनाहरू हुन्, र प्रम्प्टहरूमा साना परिवर्तनहरूले पनि फरक परिणामहरू ल्याउन सक्छ। त्यसोभए यदि यो अन्ततः ठूला एआई मोडेलहरूको लागि बेन्चमार्क परीक्षणको हिस्सा बन्ने हो भने, यसलाई अझै सुधार गर्न आवश्यक छ।

जे भए पनि, व्यावहारिक परीक्षणहरूको यो लहर पछि, हामीसँग ठूला मोडेलहरू बीचको क्षमताहरूमा भिन्नताहरूको भावना छ।

DeepSeek नयाँ "सिलिकन भ्याली मिथक हो

DeepSeek ले प्यासिफिकभर आतंक पैदा गरिरहेको छ।

मेटा कर्मचारीहरूले पोस्ट गरेका छन् कि "मेटा ईन्जिनियरहरूले DeepSeek लाई तिनीहरूले गर्न सक्ने कुनै पनि कुरा प्रतिलिपि गर्ने प्रयास गर्न पागलपनका साथ विश्लेषण गरिरहेका छन्।"

एआई टेक्नोलोजी स्टार्टअप स्केल एआईका संस्थापक अलेक्जेन्डर वाङले पनि सार्वजनिक रूपमा भनेका छन् कि DeepSeek को एआई ठूलो मोडलको कार्यसम्पादन लगभग संयुक्त राज्य अमेरिकाको उत्कृष्ट मोडेलको बराबर छ।

उनी यो पनि विश्वास गर्छन् कि संयुक्त राज्य अमेरिका विगत दशकमा AI प्रतिस्पर्धामा चीन भन्दा अगाडि रहेको हुन सक्छ, तर DeepSeek ले यसको AI ठूलो मोडेलको रिलीजले "सबै कुरा परिवर्तन गर्न सक्छ।"

X Blogger @8teAPi विश्वास गर्दछ कि DeepSeek "साइड प्रोजेक्ट" होइन तर लकहिड मार्टिनको पुरानो "Skunk Works" जस्तै हो।

तथाकथित "Skunk Works" ले अत्याधुनिक वा अपरंपरागत प्रविधि अनुसन्धान र विकासमा संलग्न धेरै उन्नत विमानहरू विकास गर्न लकहिड मार्टिनले सुरुमा स्थापना गरेको अत्यधिक गोप्य, अपेक्षाकृत स्वतन्त्र सानो टोलीलाई जनाउँछ। U-2 reconnaissance विमान र SR-71 Blackbird देखि F-22 Raptor र F-35 Lightning II फाइटर, तिनीहरू सबै यहाँबाट आएका थिए।

पछि, शब्द बिस्तारै "सानो तर राम्रो", ठूला कम्पनीहरू वा संगठनहरू भित्र स्थापित अपेक्षाकृत स्वतन्त्र र अधिक लचिलो नवप्रवर्तन टोलीहरू वर्णन गर्न प्रयोग गरिने सामान्य शब्दमा विकसित भयो।

उनले दुईवटा कारण दिए:

  • एकातिर, DeepSeek सँग ठूलो संख्यामा GPU हरू छन्, कथित रूपमा 10,000 भन्दा बढी, र स्केल एआईका सीईओ अलेक्जेन्डर वाङले यो 50,000 सम्म पुग्न सक्ने बताए।
  • अर्कोतर्फ, DeepSeek ले चीनका शीर्ष तीन विश्वविद्यालयहरूबाट मात्र प्रतिभा भर्ती गर्छ, जसको अर्थ DeepSeek अलिबाबा र टेन्सेन्ट जत्तिकै प्रतिस्पर्धी छ।

यी दुई तथ्यहरूले मात्र देखाउँछन् कि DeepSeek ले स्पष्ट रूपमा व्यावसायिक सफलता हासिल गरेको छ र यी स्रोतहरू प्राप्त गर्न पर्याप्त रूपमा परिचित छ।

DeepSeek को विकास लागतहरूको लागि, ब्लगरले भने कि चिनियाँ प्रविधि कम्पनीहरूले विभिन्न प्रकारका सब्सिडीहरू प्राप्त गर्न सक्छन्, जस्तै कम बिजुली लागत र भूमि प्रयोग।

त्यसकारण, यो धेरै सम्भावना छ कि DeepSeek को धेरैजसो लागतहरू मुख्य व्यवसाय बाहिरको खातामा वा कुनै प्रकारको डाटा सेन्टर निर्माण अनुदानको रूपमा "राखिएको" छ।

संस्थापकहरू बाहेक, सबै वित्तीय व्यवस्थाहरू कसैले बुझ्दैनन्। केही सम्झौताहरू केवल "मौखिक सम्झौताहरू" हुन सक्छन् जुन केवल प्रतिष्ठाको आधारमा अन्तिम रूप दिइन्छ।

जे भए पनि, केहि चीजहरू स्पष्ट छन्:

  • यो मोडेल उत्कृष्ट छ, दुई महिना अघि OpenAI द्वारा जारी गरिएको संस्करणसँग तुलना गर्न सकिन्छ, र पक्कै पनि यो सम्भव छ कि यो OpenAI र Anthropic ले जारी गर्न बाँकी मोडेलहरू जत्तिकै राम्रो छैन।
  • वर्तमान परिप्रेक्ष्यबाट, अनुसन्धान दिशा अझै पनि अमेरिकी कम्पनीहरु द्वारा हावी छ। DeepSeek मोडेल o1 संस्करणको लागि "छिटो फलो-अप" हो, तर DeepSeek को अनुसन्धान र विकास प्रगति धेरै छिटो छ, अपेक्षा भन्दा छिटो पकड। तिनीहरू चोरी वा ठगी गर्दैनन्, प्रायः तिनीहरू रिभर्स इन्जिनियरिङ हुन्।
  • DeepSeek ले मुख्यतया आफ्नो प्रतिभालाई प्रशिक्षण दिइरहेको छ, अमेरिकी प्रशिक्षित पीएचडीहरूमा भर पर्नुको सट्टा, जसले प्रतिभा पूललाई ठूलो मात्रामा विस्तार गर्दछ।
  • अमेरिकी कम्पनीहरूसँग तुलना गर्दा, DeepSeek बौद्धिक सम्पत्ति इजाजतपत्र, गोपनीयता, सुरक्षा, राजनीति, इत्यादिको सन्दर्भमा कम बाधाहरूको अधीनमा छ, र त्यहाँ डेटाको गलत प्रयोगको बारेमा कम चिन्ताहरू छन् जुन मानिसहरूलाई तालिम दिन चाहँदैनन्। त्यहाँ कम मुद्दाहरू, कम वकिलहरू, र कम चिन्ताहरू छन्।

सन् २०२५ निर्णायक वर्ष हुनेछ भन्नेमा धेरैभन्दा धेरै मानिसहरू विश्वास गर्छन्‌। यसैबीच, कम्पनीहरूले यसको लागि तयारी गरिरहेका छन्। मेटा, उदाहरणका लागि, 2025 सम्ममा $60-65 बिलियनको अनुमानित लगानीको साथ 2GW+ डाटा सेन्टर निर्माण गर्दैछ, र वर्षको अन्त्यसम्ममा 1.3 मिलियन भन्दा बढी GPU हरू हुनेछन्।

मेटाले आफ्नो २-गीगावाट डाटा सेन्टरलाई न्यूयोर्कको म्यानहट्टनसँग तुलना गर्न चार्ट पनि प्रयोग गर्‍यो।

तर अब DeepSeek ले कम लागत र कम GPU हरूको साथ राम्रो गरेको छ। यसले जनतालाई कसरी चिन्तित बनाउन सक्दैन ?

Yann LeCun: हामीले CTO र सह-संस्थापकलाई धन्यवाद दिनै पर्छ खुला स्रोत

हाइपरबोलिक, युचेन जिन, केवल ४ दिनमा, १TP8T-R1 ले हामीलाई ४ तथ्यहरू प्रमाणित गरेको छ भनेर पोस्ट गरेकोमा:

  • खुला स्रोत AI बन्द स्रोत AI भन्दा केवल 6 महिना पछि छ
  • खुला स्रोत एआई प्रतियोगितामा चीनको प्रभुत्व रहेको छ
  • हामी ठूलो भाषा मोडेल सुदृढीकरण शिक्षाको स्वर्ण युगमा प्रवेश गर्दैछौं
  • डिस्टिलेसन मोडेलहरू धेरै शक्तिशाली छन्, र हामी मोबाइल फोनहरूमा उच्च बौद्धिक एआई चलाउनेछौं

DeepSeek द्वारा ट्रिगर गरिएको चेन प्रतिक्रिया अझै पनि जारी छ, जस्तै OpenAI o3-mini स्वतन्त्र रूपमा उपलब्ध गराइन्छ, समुदायमा AGI/ASI बारे अस्पष्ट छलफलहरू कम गर्ने आशा, र Meta आतंकमा छ भन्ने हल्ला।

अन्ततः कसले जित्छ भनेर भविष्यवाणी गर्न गाह्रो छ, तर ढिलो हुनेको फाइदाको शक्तिलाई हामीले बिर्सनु हुँदैन भन्ने उनको विश्वास छ। आखिर, हामी सबैलाई थाहा छ कि यो गुगल थियो जसले ट्रान्सफर्मरको आविष्कार गर्‍यो, जबकि ओपनएआईले यसको वास्तविक क्षमता अनलक गर्‍यो।

साथै ट्युरिङ अवार्ड विजेता तथा मेटाका प्रमुख एआई वैज्ञानिक यान लेकुनले पनि आफ्नो विचार व्यक्त गरेका थिए ।

"जसले DeepSeek को प्रदर्शन देखेर, 'चीनले एआईमा अमेरिकालाई उछिनेको छ' भन्ने सोच्छन्, तपाईसँग यो गलत छ। सही बुझाइ यो हो कि खुला स्रोत मोडेलहरूले स्वामित्व मोडेलहरूलाई ओभरटेक गर्दैछन्। ”

LeCun ले भने कि DeepSeek ले यस पटक यस्तो स्प्लाश गरेको कारण हो किनभने तिनीहरूले खुला अनुसन्धान र खुला स्रोत (जस्तै Meta's PyTorch र Llama) बाट फाइदा उठाएका छन्। DeepSeek नयाँ विचारहरू लिएर आएको छ र अरूको काममा निर्मित छ। किनभने तिनीहरूको काम सार्वजनिक रूपमा रिलीज गरिएको छ र खुला स्रोत, सबैले यसको फाइदा लिन सक्छन्। यो खुला अनुसन्धान र खुला स्रोतको शक्ति हो।

नेटिजनहरूको प्रतिबिम्ब जारी छ। नयाँ प्रविधिको विकासको बारेमा उनीहरू उत्साहित हुँदा, उनीहरूले चिन्ताको सानो वातावरण पनि महसुस गर्न सक्छन्। आखिर, DeepSeekers को उदय एक वास्तविक प्रभाव हुन सक्छ।

समान पोस्टहरू

जवाफ लेख्नुहोस्

तपाईँको इमेल ठेगाना प्रकाशित गरिने छैन। अनिवार्य फिल्डहरूमा * चिन्ह लगाइएको छ