DeepSeek 1 এর পেছনের রহস্য | DeepSeekMath এবং GRPO এর বিস্তারিত তথ্য

DeepSeek 1 এর পেছনের রহস্য | DeepSeekMath এবং GRPO এর বিস্তারিত তথ্য

আজ আমি DeepSeek থেকে একটি প্রবন্ধ শেয়ার করতে চাই, যার শিরোনাম "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models"। এই প্রবন্ধে DeepSeekMath 7B এর সাথে পরিচয় করিয়ে দেওয়া হয়েছে, যা DeepSeek-Coder-Base-v1.5 7B এর উপর প্রাক-প্রশিক্ষিত, যা 120B গণিত-সম্পর্কিত টোকেন, প্রাকৃতিক ভাষা এবং কোড ডেটার সংগ্রহের উপর ভিত্তি করে তৈরি। প্রতিযোগিতামূলক-স্তরে মডেলটি 51.7% এর একটি আশ্চর্যজনক স্কোর অর্জন করেছে...

DeepSeek-R1 প্রযুক্তি উন্মোচিত: কাগজের মূল নীতিগুলি ভেঙে ফেলা হয়েছে এবং যুগান্তকারী মডেল কর্মক্ষমতার চাবিকাঠি উন্মোচিত হয়েছে

আজ আমরা DeepSeek R1, শিরোনাম: DeepSeek-R1: রিইনফোর্সমেন্ট লার্নিং এর মাধ্যমে LLM-এ যুক্তির ক্ষমতাকে উৎসাহিত করা: রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে LLM-এর যুক্তির ক্ষমতাকে উৎসাহিত করা। এই প্রবন্ধে DeepSeek-এর প্রথম প্রজন্মের যুক্তি মডেল, DeepSeek-R1-Zero এবং DeepSeek-R1 উপস্থাপন করা হয়েছে। DeepSeek-R1-Zero মডেলটিকে প্রাথমিক পদক্ষেপ হিসেবে তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) ছাড়াই বৃহৎ-স্কেল রিইনফোর্সমেন্ট লার্নিং (RL) এর মাধ্যমে প্রশিক্ষণ দেওয়া হয়েছিল,…

DeepSeek R1 পেপারের ব্যাখ্যা এবং মূল প্রযুক্তিগত বিষয়গুলি

১ পটভূমি বসন্ত উৎসবের সময়, DeepSeek R1 আবারও ব্যাপক মনোযোগ আকর্ষণ করে, এমনকি আমরা পূর্বে যে DeepSeek V3 ব্যাখ্যামূলক প্রবন্ধটি লিখেছিলাম তাও পুনঃপ্রচারিত এবং প্রচুর আলোচনা করা হয়েছিল। যদিও DeepSeek R1 এর অনেক বিশ্লেষণ এবং পুনরুৎপাদন করা হয়েছে, এখানে আমরা কিছু সংশ্লিষ্ট পাঠ নোট সংকলন করার সিদ্ধান্ত নিয়েছি। আমরা তিনটি ব্যবহার করব...

গুগলের কম দামের মডেল, জেমিনি ২.০ সিরিজ, আক্রমণাত্মক: বড় মডেলগুলিতে খরচ-কার্যকারিতার লড়াই তীব্রতর হচ্ছে

গুগলের কম দামের মডেল, জেমিনি ২.০ সিরিজ, আক্রমণাত্মক: বড় মডেলগুলিতে খরচ-কার্যকারিতার লড়াই তীব্রতর হচ্ছে

বৃহৎ AI মডেল ব্যবহারের উচ্চ খরচ একটি প্রধান কারণ যার ফলে অনেক AI অ্যাপ্লিকেশন এখনও বাস্তবায়িত এবং প্রচারিত হয়নি। চরম কর্মক্ষমতা নির্বাচনের অর্থ হল বিশাল কম্পিউটিং পাওয়ার খরচ, যার ফলে উচ্চ ব্যবহারের খরচ হয় যা সাধারণ ব্যবহারকারীরা মেনে নিতে পারেন না। বৃহৎ AI মডেলের প্রতিযোগিতা ধোঁয়া ছাড়াই যুদ্ধের মতো। পরে…

জেমিনি ২.০ চার্টে প্রাধান্য পাচ্ছে, অন্যদিকে DeepSeek V3 এর দাম নিয়ে চিৎকার করছে, এবং একজন নতুন সাশ্রয়ী চ্যাম্পিয়নের জন্ম হচ্ছে!

জেমিনি ২.০ চার্টে প্রাধান্য পাচ্ছে, অন্যদিকে DeepSeek V3 এর দাম নিয়ে চিৎকার করছে, এবং একজন নতুন সাশ্রয়ী চ্যাম্পিয়নের জন্ম হচ্ছে!

গুগল জেমিনি ২.০ পরিবার অবশেষে সম্পূর্ণ হল! এটি প্রকাশের সাথে সাথেই চার্টে আধিপত্য বিস্তার করে। ডিপসিক, কিউয়েন এবং o3 এর তাড়াহুড়ো এবং অবরোধের মধ্যে, গুগল আজ সকালে একসাথে তিনটি মডেল প্রকাশ করেছে: জেমিনি ২.০ প্রো, জেমিনি ২.০ ফ্ল্যাশ এবং জেমিনি ২.০ ফ্ল্যাশ-লাইট। বৃহৎ মডেল LMSYS র‍্যাঙ্কিংয়ে, জেমিনি…

২৭ বছর বয়সী সিইওর সাথে a16z সংলাপ: এআই এজেন্টের একটি বিশাল লিভারেজ প্রভাব রয়েছে এবং দীর্ঘমেয়াদী মূল্য নির্ধারণ শ্রম খরচের সাথে যুক্ত হবে

২৭ বছর বয়সী সিইওর সাথে a16z সংলাপ: এআই এজেন্টের একটি বিশাল লিভারেজ প্রভাব রয়েছে এবং দীর্ঘমেয়াদী মূল্য নির্ধারণ শ্রম খরচের সাথে যুক্ত হবে

গ্রাহকের অভিজ্ঞতাকে নতুন করে রূপ দেয় এআই এজেন্ট জেসি ঝাং: একজন এজেন্ট আসলে কীভাবে তৈরি হয়? আমাদের দৃষ্টিভঙ্গি হল সময়ের সাথে সাথে, এটি আরও বেশি করে একটি প্রাকৃতিক ভাষা-ভিত্তিক এজেন্টের মতো হয়ে উঠবে কারণ বৃহৎ ভাষা মডেলগুলি (এলএলএম) এভাবেই প্রশিক্ষিত হয়। দীর্ঘমেয়াদে, যদি আপনার কাছে একজন অতি বুদ্ধিমান এজেন্ট থাকে যে...

ক্যাথি উড: DeepSeek খরচ কমানোর প্রক্রিয়াকে ত্বরান্বিত করছে; মহামন্দার সাথে তুলনীয় চরম ঘনীভূত বাজার কাঠামো পরিবর্তিত হবে।

DeepSeek এর সাথে প্রতিযোগিতা মার্কিন যুক্তরাষ্ট্রের জন্য ভালো ক্যাথি উড: আমার মনে হয় এটি দেখায় যে উদ্ভাবনের খরচ নাটকীয়ভাবে হ্রাস পাচ্ছে, এবং এই প্রবণতা ইতিমধ্যেই শুরু হয়ে গেছে। উদাহরণস্বরূপ, DeepSeek এর আগে, কৃত্রিম বুদ্ধিমত্তা প্রশিক্ষণের খরচ প্রতি বছর 75% কমেছিল, এবং অনুমানের খরচ এমনকি 85% কমেছিল ...

গুগল একসাথে তিনটি নতুন মডেল প্রকাশ করেছে: জেমিনি-২.০-প্রো বিনামূল্যে, অসাধারণ স্কোর রয়েছে এবং প্রথম স্থানে রয়েছে, এবং জটিল প্রম্পট কোডিং এবং প্রক্রিয়াকরণের জন্য উপযুক্ত!

জেমিনি ২.০ এর গল্প ত্বরান্বিত হচ্ছে। ডিসেম্বরে ফ্ল্যাশ থিংকিং এক্সপেরিমেন্টাল সংস্করণটি ডেভেলপারদের জন্য কম ল্যাটেন্সি এবং উচ্চ কর্মক্ষমতা সহ একটি কার্যকরী মডেল নিয়ে এসেছে। এই বছরের শুরুতে, গুগল এআই স্টুডিওতে ২.০ ফ্ল্যাশ থিংকিং এক্সপেরিমেন্টাল আপডেট করা হয়েছিল যাতে ফ্ল্যাশের গতি এবং উন্নত অনুমান ক্ষমতা একত্রিত করে কর্মক্ষমতা আরও উন্নত করা যায়। গত সপ্তাহে,…

DeepSeek শীর্ষ ১৭টি সেরা বিকল্প: ব্যাপক বিশ্লেষণ (২০২৫)

DeepSeek শীর্ষ ১৭টি সেরা বিকল্প: ব্যাপক বিশ্লেষণ (২০২৫)

ভূমিকা কৃত্রিম বুদ্ধিমত্তার দ্রুত বিকশিত ভূমিরূপে, DeepSeek একটি শক্তিশালী ভাষা মডেল হিসেবে আবির্ভূত হয়েছে। এই বিস্তৃত বিশ্লেষণে DeepSeek-এর শীর্ষ 17টি বিকল্প অন্বেষণ করা হয়েছে, তাদের অনন্য বৈশিষ্ট্য, ক্ষমতা এবং ব্যবহারের ক্ষেত্রে পরীক্ষা করা হয়েছে। আমাদের গবেষণা আন্তর্জাতিক এবং চীনা উভয় প্ল্যাটফর্মের উপর দৃষ্টি নিবদ্ধ করে যা DeepSeek ইন্টিগ্রেশন বা অনুরূপ ক্ষমতা প্রদান করে। শীর্ষ বিকল্প বিশ্লেষণ 1….

Ali Qwen2.5-Max DeepSeek-V3 কে ছাড়িয়ে গেছে! নেটিজেন: চীনের AI দ্রুত ব্যবধান কমিয়ে আনছে

এইমাত্র, আলীর বিগ মডেল এরিনা তালিকায় আরেকটি দেশীয় মডেল যুক্ত হয়েছে, Qwen2.5-Max, যা DeepSeek-V3 কে ছাড়িয়ে গেছে এবং মোট স্কোর 1332 নিয়ে সামগ্রিক র‌্যাঙ্কিংয়ে সপ্তম স্থানে রয়েছে। এটি এক ধাক্কায় Claude 3.5 Sonnet এবং Llama 3.1 405B এর মতো মডেলগুলিকেও ছাড়িয়ে গেছে। বিশেষ করে, এটি প্রোগ্রামিংয়ে উৎকৃষ্ট...