সূচিপত্র

১ পটভূমি

বসন্ত উৎসবের সময়, DeepSeek R1 আবারও ব্যাপক মনোযোগ আকর্ষণ করেছে, এমনকি আমরা পূর্বে যে DeepSeek V3 ব্যাখ্যামূলক প্রবন্ধটি লিখেছিলাম তাও পুনঃপ্রচারিত হয়েছে এবং প্রচুর আলোচনা করা হয়েছে।

যদিও DeepSeek R1 এর অনেক বিশ্লেষণ এবং পুনরুৎপাদন করা হয়েছে, এখানে আমরা কিছু সংশ্লিষ্ট পঠন নোট সংকলন করার সিদ্ধান্ত নিয়েছি।

আমরা মডেল নির্মাণ এবং মূল প্রযুক্তিগত বিষয়গুলি প্রদর্শনের জন্য তিনটি মূল পরিকল্পিত চিত্র ব্যবহার করব, DeepSeek-R1 সিরিজের সারমর্মকে আরও স্পষ্ট করে তুলে ধরব যাতে এর নকশা ধারণাগুলি সম্পর্কে আরও স্বজ্ঞাত ধারণা প্রদান করা যায়।

সংশ্লিষ্ট কাগজটি হল [2501.12948] DeepSeek-R1: রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে এলএলএম-তে যুক্তির ক্ষমতাকে উৎসাহিত করা

এবং সংশ্লিষ্ট ওপেন সোর্স মডেল হল DeepSeek-R1

২ ভূমিকা

২.১ সাধারণ যুক্তি অ্যালগরিদম

নীচের চিত্র ২-এ দেখানো হয়েছে, লেখক চারটি সাধারণ যুক্তি অ্যালগরিদম ব্যাখ্যা করেছেন। যদিও তারা নির্দিষ্ট বিবরণে ভিন্ন, তবুও তাদের সকলের মধ্যে দুটি মূল ক্রিয়াকলাপ অন্তর্ভুক্ত রয়েছে:

  • সম্প্রসারণ: সমাধানের পথ প্রসারিত করতে টোকেন তৈরি করুন।
  • সমষ্টিকরণ: চূড়ান্ত উত্তর পেতে প্রতিটি পথের ফলাফল একত্রিত করুন। সম্প্রসারণ পর্যায়ে গণনামূলক সম্পদ বৃদ্ধি করলে সাধারণত সমষ্টি পর্যায়ে উত্তরের মান উন্নত হতে পারে।

স্ব-সঙ্গতি (SC)। চিত্র 2a-তে দেখানো হয়েছে, SC-এর মূল ধারণা হল একাধিক ভিন্ন আউটপুট তৈরি করা (যা নমুনা প্যারামিটার ইত্যাদি পরিবর্তন করে অর্জন করা যেতে পারে), এবং তারপর সর্বোচ্চ জয়ের হার সহ উত্তর নির্বাচন করার জন্য সমস্ত উত্তরের জন্য ভোট দেওয়া। মূল প্যারামিটার হল প্রার্থীর উত্তরের সংখ্যা n।

রিবেস অ্যালগরিদম: নীচের চিত্র 2b-তে দেখানো হয়েছে, রিবেস একাধিক আউটপুটও তৈরি করে, তবে সেগুলি একাধিক ধাপে তৈরি করা হয়। প্রতিটি ধাপে রিওয়ার্ড মডেল ব্যবহার করে স্কোর করা হয় এবং সর্বোচ্চ স্কোর প্রাপ্ত ফলাফলটি জেনারেট করা চালিয়ে যাওয়ার জন্য ব্যবহার করা হয়। অবশেষে, একাধিক শাখা সহ একটি যুক্তি বৃক্ষ তৈরি করা হয়। সর্বোচ্চ স্কোর (বেস্ট-অফ-এন) সহ উত্তরটি একত্রিতকরণ পর্যায়ে নির্বাচিত হয়।

মন্টে কার্লো ট্রি সার্চ (MCTS): নীচের চিত্র 2c তে দেখানো হয়েছে, MCTS হল একটি শক্তিশালী রিজনিং অ্যালগরিদম যা ধীরে ধীরে নমুনা সংগ্রহের মাধ্যমে নোডগুলিকে প্রসারিত করে এবং একটি সমাধান ট্রি তৈরি করে যতক্ষণ না এটি একটি প্রার্থী সমাধান ধারণকারী পাতার নোডে পৌঁছায়। প্রতিটি সমাধান একটি রিওয়ার্ড মডেল বা সিমুলেশনের মাধ্যমে স্কোর করা হয়, এবং স্কোরটি তার পূর্বপুরুষ নোডগুলিতে তাদের পুরষ্কারের মান আপডেট করার জন্য প্রচার করা হয়, এইভাবে একটি পুনরাবৃত্তি সম্পন্ন করে। মূল প্যারামিটারটিও n, এবং n বৃদ্ধি সম্ভাব্য সমাধানগুলির আরও গভীর এবং বিস্তৃত অনুসন্ধানের অনুমতি দেয়।

অভ্যন্তরীণ জ্ঞানীয় শৃঙ্খল (ICoT)। নীচের চিত্র 2d-তে দেখানো হয়েছে, OpenAI o1 এবং Qwen-QWQ-এর মতো সর্বশেষ LLMগুলি প্রশিক্ষণের সময় যুক্তি আচরণকে অভ্যন্তরীণ করতে পারে কোনও স্পষ্ট যুক্তি অ্যালগরিদমের প্রয়োজন ছাড়াই। মূল ধারণা হল একটি CoT ক্রম তৈরি করা, জটিল সমস্যাগুলিকে একাধিক উপ-সমস্যায়ে বিভক্ত করা এবং তারপরে পূর্ববর্তী ফলাফলগুলি প্রতিফলিত করে এই উত্তরগুলিকে পুনরাবৃত্তিমূলকভাবে অপ্টিমাইজ করা যাতে অবশেষে একটি সমাধানে পৌঁছানো যায়।

২.২ যুক্তিগত সারিবদ্ধকরণ পদ্ধতি

২.২.১ সেরা-অফ-এন পদ্ধতির ওভারভিউ

সংক্ষেপে, বেস্ট-অফ-এন হল এলএলএম ইনফারেন্সে বহুল ব্যবহৃত একটি অ্যালাইনমেন্ট পদ্ধতি, যার লক্ষ্য একাধিক প্রার্থীর প্রতিক্রিয়া তৈরি করে এবং সেরাটি নির্বাচন করে উৎপন্ন ফলাফলের উচ্চ গুণমান নিশ্চিত করা। এটি তিনটি প্রধান প্রক্রিয়া নিয়ে গঠিত:

  1. জেনারেশন প্রক্রিয়া: একটি প্রদত্ত প্রম্পট X এর জন্য, সেরা-অফ-N পদ্ধতিটি N IID প্রতিক্রিয়া তৈরি করে (Y₁, Y₂, …, Yₙ), যেখানে N কে প্রায়শই "ব্যাচের আকার" হিসাবে উল্লেখ করা হয়।
  2. স্কোরিং প্রক্রিয়া: প্রতিটি উৎপন্ন প্রতিক্রিয়া একটি পুরষ্কার মডেল দ্বারা স্কোর করা হয় যাতে সংশ্লিষ্ট স্কোর {s(Y₁), s(Y₂), …, s(Yₙ)} পাওয়া যায়।
  3. সেরা প্রতিক্রিয়া নির্বাচন করা: অবশেষে, সমস্ত উৎপন্ন প্রতিক্রিয়ার মধ্যে সর্বোচ্চ স্কোর প্রাপ্ত প্রতিক্রিয়াটি আউটপুট হিসাবে নির্বাচিত হয়, অর্থাৎ, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}।

এই পদ্ধতির সুবিধাগুলি হল:

  1. এটি কার্যকরভাবে জটিল সূক্ষ্ম-সুরকরণের ধাপগুলি এড়াতে পারে, যার ফলে পূর্ব-প্রশিক্ষিত বা নির্দেশাবলীর সাহায্যে সূক্ষ্ম-সুরক্ষিত ভাষা মডেলগুলি স্থাপন করা সহজ হয়।
  2. এটি বাস্তবায়ন করা সহজ, বোধগম্য এবং মূলত হাইপারপ্যারামিটার মুক্ত: প্রধান হাইপারপ্যারামিটার হল N, যা অনুমানের সময় গতিশীলভাবে সামঞ্জস্য করা যেতে পারে।
  3. এটি উৎপাদন মানের দিক থেকে অত্যন্ত প্রতিযোগিতামূলক এবং এমনকি RLHF বা DPO-এর মতো কিছু জটিল প্রশিক্ষণ-পরবর্তী কৌশলের সাথে প্রতিযোগিতা করতে পারে। গবেষণায় দেখা গেছে যে বেস্ট-অফ-এন পদ্ধতিটি পুরষ্কার এবং KL ডাইভারজেন্সের মধ্যে ট্রেড-অফ কার্ভে ভালোভাবে কাজ করে, এমনকি অন্যান্য জটিল অ্যালাইনমেন্ট কৌশলকেও ছাড়িয়ে যায়।

এই পদ্ধতির অসুবিধাগুলি হল

  1. অনুমানের জন্য N ক্রম তৈরি করতে হবে, যা উল্লেখযোগ্য গণনামূলক ওভারহেডের দিকে পরিচালিত করতে পারে। বাস্তবে, N এর জন্য একটি যুক্তিসঙ্গত মান 4 থেকে 128 পর্যন্ত, তবে সবচেয়ে উন্নত প্রশিক্ষণ-পরবর্তী পদ্ধতিগুলির সাথে প্রতিযোগিতা করার জন্য, উচ্চতর N মান প্রয়োজন হতে পারে, যেমন 1000 থেকে 60000, যা প্রায় অগ্রহণযোগ্য গণনামূলক ওভারহেডের দিকে পরিচালিত করতে পারে।

পরবর্তী তত্ত্বাবধানে থাকা সূক্ষ্ম-টিউনিংয়ের জন্য উচ্চ-মানের ডেটাসেট তৈরি করতে প্রায়শই সেরা-অফ-এন পদ্ধতি ব্যবহার করা হয় এবং LLaMA-2 এবং LLaMA-3 এর সারিবদ্ধকরণ প্রক্রিয়ায় গুরুত্বপূর্ণ ভূমিকা পালন করে।

২.২.২ ওপেনএআই-এর সেরা-অফ-এন পদ্ধতি

ওপেনএআই প্রথম প্রস্তাব করেছিল বেস্ট-অফ-এন স্যাম্পলিং-এর ক্ষেত্রে [2009.01325] মানুষের প্রতিক্রিয়া থেকে সারসংক্ষেপ শেখা । বিশেষ করে, এটি একাধিক মডেল থেকে উৎপন্ন সেরা সারাংশ নির্বাচন করে সারাংশ মডেলের কর্মক্ষমতা মূল্যায়ন এবং অপ্টিমাইজ করার জন্য ব্যবহৃত হয়। এই পদ্ধতিটি গবেষকদের বিভিন্ন মূল্যায়ন মেট্রিক্স এবং মানব মূল্যায়নকারীর পছন্দের মধ্যে সম্পর্ক আরও ভালভাবে বুঝতে সাহায্য করে এবং মডেল প্রশিক্ষণ এবং অপ্টিমাইজেশন পরিচালনা করতে ব্যবহৃত হয়।

ওপেনএআই ফলো-আপে বেস্ট-অফ-এন স্যাম্পলিং (প্রত্যাখ্যান নমুনা) ব্যবহার করে। [2112.09332] WebGPT: মানুষের প্রতিক্রিয়া সহ ব্রাউজার-সহায়তায় প্রশ্নোত্তর। বিশেষ করে, BC মডেল বা RL মডেল থেকে নির্দিষ্ট সংখ্যক উত্তর (৪, ১৬ অথবা ৬৪) নমুনা সংগ্রহ করা হয় এবং সর্বোচ্চ পুরষ্কার মডেল স্কোর সম্পন্ন উত্তরটিকে প্রতিপক্ষ পুরষ্কার মডেলের জন্য একটি অপ্টিমাইজেশন পদ্ধতি হিসেবে নির্বাচন করা হয়। এই পদ্ধতিতে অতিরিক্ত প্রশিক্ষণের প্রয়োজন হয় না, তবে অনুমান পর্যায়ের গণনামূলক জটিলতা অর্জনের জন্য এটি বৃদ্ধি করে।

২.২.৩ গুগল বন্ড পদ্ধতি

ইন [2407.14622] বন্ড: বেস্ট-অফ-এন ডিস্টিলেশনের সাথে এলএলএম-গুলিকে সারিবদ্ধ করে, গুগলের লেখকরা বেস্ট-অফ-এন ডিস্টিলেশন (বন্ড) প্রস্তাব করেছেন, একটি নতুন RLHF অ্যালগরিদম যা ইনফারেন্সের সময় কম্পিউটেশনাল ওভারহেড উল্লেখযোগ্যভাবে বৃদ্ধি না করে একটি ডিস্ট্রিবিউশন ম্যাচিং অ্যালগরিদমের মাধ্যমে সেরা-অফ-N নমুনা কৌশল অনুকরণ করার জন্য ডিজাইন করা হয়েছে।

বিশেষ করে, লেখক প্রথমে সেরা-অফ-এন নমুনার সঠিক বিশ্লেষণাত্মক বন্টন বের করেন এবং সেরা-অফ-এন নমুনার সম্ভাব্যতা ফাংশনটি দেন:

দ্বিতীয়ত, লেখকরা সমস্যাটিকে একটি বিতরণ ম্যাচিং সমস্যা হিসেবে প্রকাশ করেছেন;

পরবর্তীতে, লেখকরা জেফ্রির ডাইভারজেন্সকে বিতরণ ম্যাচিং উদ্দেশ্য হিসেবে ব্যবহার করার প্রস্তাব করেন:

পরিশেষে, N নির্বাচনের সমস্যা সমাধানের জন্য, লেখকরা পুনরাবৃত্ত BOND পদ্ধতি প্রস্তাব করেছেন, যা পুনরাবৃত্তভাবে Best-of-N বিতরণকে পাতন করে কৌশলটির কর্মক্ষমতা উন্নত করে। নির্দিষ্ট পদক্ষেপগুলির মধ্যে রয়েছে:

সহায়ক অ্যাঙ্কর কৌশল π(অ্যাঙ্কর) আরম্ভ করুন।

Best-of-N π(anchor) ডিস্টিল করার জন্য পুনরাবৃত্তভাবে BOND এক্সিকিউট করুন এবং প্রতিটি ধাপের পরে π(anchor) আপডেট করুন।

২.৩ প্রক্রিয়া তত্ত্বাবধান এবং ফলাফল তত্ত্বাবধান

ফলাফল এবং প্রক্রিয়া পুরষ্কার মডেল মূল্যায়নের দুটি দিককে নির্দেশ করে:

  • ফলাফল পুরষ্কার মডেল: মডেল আউটপুটের চূড়ান্ত ফলাফল সঠিক নাকি প্রত্যাশা অনুযায়ী তা মূল্যায়ন করুন।
  • প্রক্রিয়া পুরষ্কার মডেল: ফলাফল তৈরির প্রক্রিয়ায় মডেলের যুক্তি এবং সিদ্ধান্ত গ্রহণের পদক্ষেপগুলি যুক্তিসঙ্গত এবং কার্যকর কিনা তা মূল্যায়ন করে।

উদাহরণস্বরূপ, OpenAI-এর Let's Verify Step by Step | OpenAI-তে আরও উল্লেখ করা হয়েছে:

  • প্রক্রিয়া তত্ত্বাবধান (ফলাফল-তত্ত্বাবধান): মডেলের যুক্তি প্রক্রিয়ার প্রতিটি ধাপে প্রতিক্রিয়া প্রদান করা জড়িত। প্রক্রিয়া-তত্ত্বাবধানে পুরষ্কার মডেল (PRM) সমাধানের প্রতিটি ধাপের সঠিকতা পূর্বাভাস দেওয়ার জন্য প্রশিক্ষিত।
  • ফলাফল-তত্ত্বাবধান: ফলাফল-তত্ত্বাবধান শুধুমাত্র মডেলের যুক্তির চূড়ান্ত ফলাফলের উপর ভিত্তি করে প্রতিক্রিয়া প্রদান করে। ফলাফল-তত্ত্বাবধানে থাকা পুরষ্কার মডেলগুলি (ORM) সমাধানের চূড়ান্ত উত্তর ব্যবহার করে প্রশিক্ষিত করা হয় এবং স্বয়ংক্রিয় চেকিংয়ের মাধ্যমে সঠিকতা নির্ধারণ করা হয়।

২.৪ রিওয়ার্ড হ্যাকিং

আরএল-এ, রিওয়ার্ড হ্যাকিং বলতে এমন একটি ঘটনাকে বোঝায় যেখানে একজন এজেন্ট রিওয়ার্ড ফাংশনের ডিজাইনের ত্রুটিকে কাজে লাগিয়ে ক্রমবর্ধমান পুরষ্কারকে এমনভাবে সর্বাধিক করে তোলে যা ডিজাইনারের মূল উদ্দেশ্য পূরণ করে না। যদিও এই আচরণটি প্রযুক্তিগতভাবে রিওয়ার্ড ফাংশনের অপ্টিমাইজেশন লক্ষ্য পূরণ করে, প্রকৃত প্রভাব প্রত্যাশিত টাস্ক লক্ষ্য থেকে বিচ্যুত হয় এবং এমনকি নেতিবাচক পরিণতিও হতে পারে।

মূল বিষয় বিশ্লেষণ:

  1. সংজ্ঞা এবং প্রকাশ:
    1. এজেন্ট রিওয়ার্ড ফাংশনে একটি ত্রুটি খুঁজে পায় এবং সমস্যাটি সমাধান করার পরিবর্তে "শর্টকাট" গ্রহণ করে একটি উচ্চ পুরষ্কার পায়।
    2. উদাহরণস্বরূপ, একটি পরিষ্কারক রোবট ঘরটি পরিষ্কার করার পরিবর্তে "পরিষ্কার" দেখানোর জন্য আলো নিভিয়ে দেয়; একজন গেম এজেন্ট লেভেল লক্ষ্য পূরণ না করেই বারবার পয়েন্ট স্কোর করে; ব্রেকিংয়ের সময় কমাতে গতি কমাতে না চাওয়া, যা নিরাপত্তার জন্য ঝুঁকি তৈরি করে; উচ্চ স্কোর ফাঁকি দেওয়ার জন্য অর্থহীন সামগ্রী তৈরি করে যা কীওয়ার্ডের সাথে মেলে।
  2. মূল কারণ:
    1. অসম্পূর্ণ পুরষ্কার ফাংশন ডিজাইন: অতি সরলীকরণ বা প্রান্তিক কেসগুলি কভার করতে ব্যর্থতা।
    2. লক্ষ্য এবং পুরষ্কারের মধ্যে ভুল সমন্বয়: পুরষ্কার ফাংশনটি প্রকৃত লক্ষ্যকে সম্পূর্ণরূপে প্রতিফলিত করতে ব্যর্থ হয়, যার ফলে এজেন্ট "ভুল" লক্ষ্যের জন্য অপ্টিমাইজ করে।
  3. সমাধান:
    1. পুরষ্কার নকশা উন্নত করুন: বহুমাত্রিক পুরষ্কার (যেমন নিরাপত্তা, দক্ষতা, ইত্যাদি) প্রবর্তন করুন অথবা পুরষ্কার ফাংশনটি গতিশীলভাবে সামঞ্জস্য করুন।
    2. প্রতিপক্ষ যাচাইকরণ: অতিরিক্ত ব্যবস্থার মাধ্যমে এজেন্ট "প্রতারণা" করছে কিনা তা সনাক্ত করুন।
    3. ম্যানুয়াল হস্তক্ষেপ এবং সীমাবদ্ধতা: আচরণগত সীমানা নির্ধারণ করুন (যেমন নিরাপত্তা স্তর) অথবা ম্যানুয়াল প্রতিক্রিয়া (যেমন RLHF)।
    4. ইনভার্স রিইনফোর্সমেন্ট লার্নিং (IRL): বিশেষজ্ঞদের প্রদর্শন থেকে আরও বাস্তবসম্মত পুরষ্কার ফাংশন শিখুন।
    5. শ্রেণিবদ্ধ শক্তিবৃদ্ধি শিক্ষণ: স্থানীয় অপ্টিমাইজেশনের ঝুঁকি কমাতে কাজটিকে উপ-লক্ষ্যে বিভক্ত করুন।
  4. অতিরিক্ত ফিটিং এর সাথে সম্পর্ক:
    1. উভয় ক্ষেত্রেই প্রশিক্ষণ মেট্রিক্স এবং বাস্তব-বিশ্বের কর্মক্ষমতার মধ্যে বিচ্ছিন্নতা দেখা যায়, তবে রিওয়ার্ড হ্যাকিং মডেলের সাধারণীকরণ ক্ষমতার চেয়ে রিওয়ার্ড ফাংশনের নকশা ত্রুটিগুলির উপর বেশি জোর দেয়।
  5. সারাংশ:
    1. রিওয়ার্ড হ্যাকিং RL-তে লক্ষ্য সারিবদ্ধকরণের চ্যালেঞ্জ প্রকাশ করে। এই সমস্যা সমাধানের জন্য আরও শক্তিশালী পুরষ্কার প্রক্রিয়া ডিজাইন করা, বাহ্যিক সীমাবদ্ধতা প্রবর্তন করা এবং এজেন্টের আচরণ দক্ষ এবং নকশার উদ্দেশ্যের সাথে সঙ্গতিপূর্ণ কিনা তা নিশ্চিত করার জন্য মানুষের পূর্ব জ্ঞান অন্তর্ভুক্ত করার সমন্বয় প্রয়োজন।

৩টি ১টিপি৮টি-আর১-জিরো এবং ১টিপি৮টি-আর১

৩.১ ওভারভিউ

পূর্ববর্তী গবেষণাগুলি মডেলের কর্মক্ষমতা উন্নত করার জন্য মূলত প্রচুর পরিমাণে তত্ত্বাবধানে থাকা ডেটার উপর নির্ভর করেছে। এই গবেষণায় দেখা গেছে যে কোল্ড স্টার্ট হিসেবে SFT না থাকলেও, বৃহৎ-স্কেল RL মডেলের যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে। এছাড়াও, অল্প পরিমাণে কোল্ড স্টার্ট ডেটা প্রবর্তন কর্মক্ষমতা আরও উন্নত করতে পারে। DeepSeek-R1 এর সাথে সম্পর্কিত মডেলগুলি নিম্নরূপ:

  1. DeepSeek-R1-Zero: এই মডেলটি কোনও SFT ডেটা ছাড়াই সরাসরি বেস মডেলে RL প্রয়োগ করে।
  2. DeepSeek-R1: এই মডেলটি RL প্রয়োগ করে একটি চেকপয়েন্ট থেকে শুরু করে যা হাজার হাজার দীর্ঘ CoT নমুনা দিয়ে সূক্ষ্মভাবে সুরক্ষিত করা হয়েছে।
  3. DeepSeek-R1-Distill-xx: DeepSeek-R1 এর রিজনিং ক্ষমতাকে একটি ছোট Dense মডেলে ডিস্টিল করে।

৩.২ ১TP8T-R1-জিরো

নিম্নলিখিত চিত্রটি DeepSeek-R1-Zero মডেলের প্রশিক্ষণের মূল বিষয়গুলি দেখায়:

দ্রষ্টব্য: এটি লক্ষ করা উচিত যে এই গবেষণাপত্রটি DeepSeek-R1-Zero-এর RL প্রক্রিয়ায় ব্যবহৃত ডেটা সম্পর্কে খুব বেশি তথ্য প্রদান করে না। তবে, পরবর্তী R1 প্রশিক্ষণে ডেটা তৈরির প্রক্রিয়া এবং পরিমাণ সম্পর্কে কিছু ব্যাখ্যা রয়েছে, যদিও এটি বিশেষভাবে নির্দিষ্ট নয়।

৩.২.১ আরএল অ্যালগরিদম

RL-এর প্রশিক্ষণ খরচ কমাতে, লেখকরা DeepSeek-এর নিজস্ব GRPO (গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন) পদ্ধতি ব্যবহার করেছেন, [2402.03300] DeepSeekMath: মুক্ত ভাষা মডেলে গাণিতিক যুক্তির সীমা পুশ করা। এই পদ্ধতিটি সমালোচনামূলক মডেলকে পরিত্যাগ করে, যা সাধারণত পলিসি মডেলের আকারে তুলনীয়, এবং পরিবর্তে একটি গ্রুপ স্কোর ব্যবহার করে বেসলাইন অনুমান করে। সংশ্লিষ্ট ব্যাখ্যাটি নীচের চিত্রে দেখানো হয়েছে (টুইটার থেকে ছবি):

৩.২.২ পুরষ্কার মডেলিং

পুরষ্কার হল প্রশিক্ষণ সংকেতের উৎস এবং RL-এর অপ্টিমাইজেশন দিক নির্ধারণ করে। DeepSeek-R1-Zero-কে প্রশিক্ষণ দেওয়ার জন্য, লেখকরা একটি নিয়ম-ভিত্তিক পুরষ্কার ব্যবস্থা ব্যবহার করেছেন, যা মূলত দুই ধরণের পুরষ্কার নিয়ে গঠিত:

  • নির্ভুলতার পুরষ্কার: উত্তরটি সঠিক কিনা তা মূল্যায়ন করুন। উদাহরণস্বরূপ:
    • নির্ণায়ক ফলাফল সহ গাণিতিক সমস্যাগুলির ক্ষেত্রে, মডেলটিকে একটি নির্দিষ্ট বিন্যাসে (যেমন একটি বাক্সের ভিতরে) চূড়ান্ত উত্তর প্রদান করতে হবে যাতে নিয়ম দ্বারা এর সঠিকতা নির্ভরযোগ্যভাবে যাচাই করা যায়।
    • একইভাবে, LeetCode সমস্যার জন্য, পূর্বনির্ধারিত পরীক্ষার ক্ষেত্রের উপর ভিত্তি করে একটি কম্পাইলার ব্যবহার করে প্রতিক্রিয়া তৈরি করা যেতে পারে।
  • ফর্ম্যাট পুরষ্কার: মডেলটিকে তার চিন্তাভাবনা প্রক্রিয়াটিকে "" এর মধ্যে স্থাপন করতে বাধ্য করার জন্য একটি ফর্ম্যাট পুরষ্কারও ব্যবহৃত হয়। "এবং" "ট্যাগ।

DeepSeek-R1-Zero তৈরির সময়, লেখক আউটকাম নিউরাল রিওয়ার্ড মডেল বা প্রসেস নিউরাল রিওয়ার্ড মডেল ব্যবহার করেননি কারণ লেখক দেখেছেন যে বৃহৎ আকারের RL প্রক্রিয়াগুলিতে নিউরাল রিওয়ার্ড মডেল রিওয়ার্ড স্পুফিং (রিওয়ার্ড হ্যাকিং) এর সম্মুখীন হতে পারে; উপরন্তু, রিওয়ার্ড মডেলকে পুনরায় প্রশিক্ষণ দেওয়ার জন্য কেবল অতিরিক্ত প্রশিক্ষণ সংস্থান প্রয়োজন হয় না, বরং পুরো প্রশিক্ষণ প্রক্রিয়াটিকে জটিল করে তোলে।

৩.২.৩ প্রশিক্ষণ টেমপ্লেট

DeepSeek-R1-Zero প্রশিক্ষণের জন্য, লেখকরা প্রথমে একটি সহজ টেমপ্লেট ডিজাইন করেছিলেন যাতে বেস মডেলটি সেট নির্দেশাবলী অনুসরণ করতে পারে। নীচের সারণি 1-এ দেখানো হয়েছে, টেমপ্লেটটির জন্য একটি অনুমান প্রক্রিয়া তৈরি করতে এবং তারপর চূড়ান্ত উত্তর দিতে DeepSeek-R1-Zero প্রয়োজন।

লেখক ইচ্ছাকৃতভাবে এই কাঠামোগত কাঠামোর সীমাবদ্ধতাগুলি সীমাবদ্ধ করেছেন যাতে কোনও বিষয়বস্তুর পক্ষপাত প্রবর্তন না করা যায় - উদাহরণস্বরূপ, প্রতিফলিত যুক্তি জোর করে প্রয়োগ করা বা নির্দিষ্ট সমস্যা সমাধানের কৌশল প্রচার করা - যাতে RL প্রক্রিয়া চলাকালীন মডেলের প্রাকৃতিক বিবর্তন সঠিকভাবে পর্যবেক্ষণ করা যায়।

৩.২.৪ উপসংহার

SFT ডেটা ছাড়াই শক্তিশালী যুক্তি ক্ষমতা: বেস মডেল থেকে সরাসরি RL শুরু করে, SFT হস্তক্ষেপ ছাড়াই মডেলের বিবর্তন গতিপথ নিবিড়ভাবে পর্যবেক্ষণ করা যেতে পারে। নীচের চিত্র 3-এ দেখানো হয়েছে, প্রশিক্ষণ প্রক্রিয়া জুড়ে DeepSeek-R1-Zero-এর চিন্তাভাবনার সময় উন্নত হতে থাকে (বৃদ্ধির দৈর্ঘ্য ধীরে ধীরে দীর্ঘতর হতে থাকে)। এই উন্নতি বাহ্যিক সমন্বয় থেকে আসেনি, বরং এটি মডেলের অভ্যন্তরীণ বিকাশের একটি স্বাভাবিক ফলাফল। DeepSeek-R1-Zero স্বাভাবিকভাবেই বর্ধিত পরীক্ষার সময় গণনা ব্যবহার করে প্রতিফলনের ক্ষমতার মতো ক্রমবর্ধমান জটিল অনুমানমূলক কাজগুলি সমাধান করার ক্ষমতা অর্জন করেছে।

প্রশিক্ষণের সময় DeepSeek-R1-Zero একটি "আহা মুহূর্ত" অনুভব করেছিল। নীচের সারণি 3-তে দেখানো হয়েছে, এই মুহূর্তটি মডেলের মধ্যবর্তী সংস্করণ পর্যায়ে ঘটেছে। এই পর্যায়ে, DeepSeek-R1-Zero তার প্রাথমিক পদ্ধতির পুনর্মূল্যায়ন করে সমস্যাগুলির জন্য আরও চিন্তাভাবনা করার সময় বরাদ্দ করতে শিখেছে।

সংখ্যাগরিষ্ঠ ভোটদান: সংখ্যাগরিষ্ঠ ভোটদান প্রয়োগ করে DeepSeek-R1-Zero এর কর্মক্ষমতা আরও উন্নত করা যেতে পারে। উদাহরণস্বরূপ, নীচের সারণি 2-তে দেখানো হয়েছে, AIME বেঞ্চমার্ক পরীক্ষায় সংখ্যাগরিষ্ঠ ভোটদান ব্যবহারের পরে, এর কর্মক্ষমতা 71.0% থেকে 86.7%-এ উন্নীত হয়, যা OpenAI-o1-0912 কে ছাড়িয়ে যায়।

দুর্বলতা: যদিও DeepSeek-R1-Zero শক্তিশালী যুক্তিবিদ্যা ক্ষমতা প্রদর্শন করে এবং স্বায়ত্তশাসিতভাবে অপ্রত্যাশিত এবং শক্তিশালী যুক্তিবিদ্যা আচরণ বিকাশ করে, তবুও এটি দুর্বল পাঠযোগ্যতা এবং ভাষা মিশ্রণের মতো চ্যালেঞ্জের মুখোমুখি হয়।

৩.৩ ১টিপি৮টি-আর১

যুক্তি প্রক্রিয়াটিকে আরও পাঠযোগ্য করে তুলতে এবং উন্মুক্ত সম্প্রদায়ের সাথে ভাগ করে নেওয়ার জন্য, লেখকরা DeepSeek-R1 পদ্ধতিটি আরও অন্বেষণ করেছেন, যা RL-এর জন্য মানব-বান্ধব কোল্ড-স্টার্ট ডেটা ব্যবহার করে। DeepSeek-R1-Zero দ্বারা অনুপ্রাণিত হয়ে, দুটি স্বাভাবিক প্রশ্ন অনুসরণ করা হয়েছে:

  1. কোল্ড স্টার্ট হিসেবে অল্প পরিমাণে উচ্চমানের ডেটা প্রবর্তন করে কি রিজনিং কর্মক্ষমতা আরও উন্নত করা যেতে পারে অথবা কনভারজেন্স প্রক্রিয়াকে ত্বরান্বিত করা যেতে পারে?
  2. আমরা কীভাবে এমন একটি ব্যবহারকারী-বান্ধব মডেল তৈরি করতে পারি যা কেবল স্পষ্ট এবং সুসংগত CoT তৈরি করে না, বরং শক্তিশালী সাধারণীকরণ ক্ষমতাও প্রদর্শন করে?

এই প্রশ্নগুলির উত্তরে, আমরা DeepSeek-R1 এর জন্য একটি প্রশিক্ষণ প্রক্রিয়া তৈরি করেছি। প্রক্রিয়াটি একাধিক ধাপ নিয়ে গঠিত, যা নীচে বর্ণিত হয়েছে:

নিচের চিত্রে দেখানো ধাপ-১, SFT + RL এর মাধ্যমে DeepSeek-R1 এর মধ্যবর্তী অবস্থাকে প্রশিক্ষণ দেয়:

নিচের চিত্রটি পর্যায়-২, ৩ এবং ৪ দেখায়:

  • ধাপ-২: উপরে বাম দিকে, ২০০,০০০ নন-রিজনিং ডেটা এবং ৬০০,০০০ রিজনিং ডেটা তৈরি করুন।
  • পর্যায়-৩: উপরের ডানদিকে, SFT + RL ট্রেন DeepSeek-R1।
  • পর্যায়-৪: নিম্ন চিত্র, ডিস্টিল DeepSeek-R1-ডিস্টিল-xx।

৩.৩.১ কোল্ড স্টার্ট (পর্যায়-১)

DeepSeek-R1-Zero এর বিপরীতে, RL প্রশিক্ষণের শুরুতে বেস মডেলের অস্থির কোল্ড স্টার্ট ফেজ প্রতিরোধ করার জন্য, লেখকরা DeepSeek-R1 এর জন্য অল্প পরিমাণে Long CoT ডেটা তৈরি এবং সংগ্রহ করেছেন যাতে প্রাথমিক RL Actor হিসাবে মডেলটিকে সূক্ষ্মভাবে সুরক্ষিত করা যায়। এই ডেটা সংগ্রহ করার জন্য, লেখকরা বিভিন্ন পদ্ধতি অন্বেষণ করেছেন:

  • লং CoT উদাহরণ সহ কয়েক-শট প্রম্পট ব্যবহার করা
  • প্রতিফলন এবং যাচাইকরণের মাধ্যমে বিস্তারিত উত্তর তৈরি করতে মডেলটিকে সরাসরি উৎসাহিত করা
  • মানুষের পঠনযোগ্য বিন্যাসে DeepSeek-R1-জিরো আউটপুট সংগ্রহ করা হচ্ছে
  • ম্যানুয়াল লেবেলিং সহ পোস্ট-প্রসেসিংয়ের মাধ্যমে ফলাফলগুলি পরিমার্জন করা

লেখকরা মোট হাজার হাজার কোল্ড স্টার্ট ডেটা সংগ্রহ করেছেন, যা RL-এর সূচনা বিন্দু হিসেবে DeepSeek-V3-বেসকে সূক্ষ্ম-টিউন করার জন্য ব্যবহার করা হয়েছিল। DeepSeek-R1-Zero-এর তুলনায়, কোল্ড স্টার্ট ডেটার সুবিধাগুলির মধ্যে রয়েছে

  • পঠনযোগ্যতা: DeepSeek-R1-শূন্য প্রতিক্রিয়াগুলি একাধিক ভাষায় মিশ্রিত করা যেতে পারে অথবা ব্যবহারকারীর উত্তরগুলি হাইলাইট করার জন্য ব্যবহৃত মার্কডাউন ফর্ম্যাটিং এর অভাব থাকতে পারে। বিপরীতে, DeepSeek-R1 এর জন্য কোল্ড স্টার্ট ডেটা তৈরি করার সময়, লেখক একটি পঠনযোগ্য ফর্ম্যাট ডিজাইন করেছেন যা প্রতিটি প্রতিক্রিয়ার শেষে একটি সারাংশ অন্তর্ভুক্ত করে এবং অপঠনযোগ্য প্রতিক্রিয়াগুলিকে ফিল্টার করে। এখানে, আউটপুট ফর্ম্যাটটি |special_token| হিসাবে সংজ্ঞায়িত করা হয়েছে। |বিশেষ_টোকেন| , যেখানে reasoning_process হল Query এর শৃঙ্খলিত চিন্তাভাবনা এবং সারাংশ যুক্তির ফলাফলের সারসংক্ষেপের জন্য ব্যবহৃত হয়।
  • সম্ভাব্যতা: মানব-প্রায়োরি কোল্ড স্টার্ট ডেটা প্যাটার্নের একটি সমন্বয় সাবধানতার সাথে ডিজাইন করে, লেখকরা পর্যবেক্ষণ করেছেন যে এর কর্মক্ষমতা DeepSeek-R1-Zero এর চেয়ে উন্নত।

৩.৩.২ যুক্তি-চালিত আরএল (পর্যায়-১)

কোল্ড স্টার্ট ডেটার উপর DeepSeek-V3-বেস সূক্ষ্ম-টিউনিং করার পর, DeepSeek-R1-Zero-এর মতো একই বৃহৎ-স্কেল RL প্রশিক্ষণ প্রক্রিয়া ব্যবহার করা হয়। এই পর্যায়ের লক্ষ্য হল যুক্তি-নিবিড় কাজগুলিতে, বিশেষ করে প্রোগ্রামিং, গণিত, বিজ্ঞান এবং লজিক্যাল যুক্তি সমস্যাগুলিতে স্পষ্ট সমাধান সহ মডেলের দক্ষতা উন্নত করা।

প্রশিক্ষণের সময়, লেখকরা লক্ষ্য করেছেন যে CoT প্রায়শই ভাষা মিশ্রণের সমস্যায় ভুগতে থাকে, বিশেষ করে যখন RL প্রম্পটে একাধিক ভাষা জড়িত থাকে। ভাষা মিশ্রণের সমস্যা দূর করার জন্য, লেখকরা RL প্রশিক্ষণে একটি ভাষা ধারাবাহিকতা পুরস্কার প্রবর্তন করেছেন, যা CoT-তে লক্ষ্য ভাষার শব্দের অনুপাতের উপর ভিত্তি করে গণনা করা হয়। যদিও অ্যাবলেশন পরীক্ষাগুলি দেখায় যে এই সারিবদ্ধকরণ পদ্ধতি মডেলের কর্মক্ষমতা সামান্য হ্রাস করে, এই পুরস্কার প্রক্রিয়াটি মানুষের পছন্দের সাথে সামঞ্জস্যপূর্ণ এবং পাঠযোগ্যতা বৃদ্ধি করে। অবশেষে, লেখকরা চূড়ান্ত পুরস্কার গঠনের জন্য ভাষা ধারাবাহিকতা পুরস্কারের সাথে সরাসরি যুক্তিযুক্তকরণ কার্যের নির্ভুলতা যুক্ত করেন এবং যুক্তিযুক্তকরণ কার্যে একত্রিত না হওয়া পর্যন্ত সূক্ষ্ম-সুরযুক্ত মডেলে RL প্রশিক্ষণ বাস্তবায়ন করেন।

৩.৩.৩ ৮০০,০০০ নির্বাচিত তথ্যের নির্মাণ (পর্যায়-২)

রিজনিং-এর জন্য RL একত্রিত হলে, পরবর্তী প্রশিক্ষণ রাউন্ডের জন্য ফলাফল চেকপয়েন্ট ব্যবহার করে SFT ডেটা সংগ্রহ করা হয়। প্রাথমিক কোল্ড স্টার্ট ডেটার বিপরীতে, যা মূলত রিজনিং-এর উপর দৃষ্টি নিবদ্ধ করে, এই পর্যায়ে লেখা, ভূমিকা পালন এবং অন্যান্য সাধারণ-উদ্দেশ্যমূলক কাজে মডেলের দক্ষতা বৃদ্ধির জন্য অন্যান্য ক্ষেত্র থেকে ডেটা অন্তর্ভুক্ত করা হয়। বিশেষ করে, ডেটা তৈরি করা হয় এবং মডেলটিকে নিম্নরূপ সূক্ষ্মভাবে সুরক্ষিত করা হয়:

  • যুক্তিগত তথ্য: যুক্তিগত প্রম্পট নির্বাচন করা হয় এবং যুক্তিগত ট্র্যাজেক্টোরিগুলি উপরে উল্লিখিত RL প্রশিক্ষিত চেকপয়েন্ট (DeepSeek-R1 পর্যায় 1) থেকে প্রত্যাখ্যান নমুনা সম্পাদন করে তৈরি করা হয়। পূর্ববর্তী পর্যায়ে, শুধুমাত্র নিয়ম-ভিত্তিক পুরষ্কার ব্যবহার করে মূল্যায়ন করা যেতে পারে এমন ডেটা অন্তর্ভুক্ত করা হয়েছিল। যাইহোক, এই পর্যায়ে, ডেটাসেটটি আরও ডেটা অন্তর্ভুক্ত করে প্রসারিত করা হয়েছিল, যার মধ্যে কিছু একটি পুরষ্কার মডেল ব্যবহার করে তৈরি করা হয়েছিল এবং মডেল ভবিষ্যদ্বাণীগুলিকে DeepSeek-V3 (বিচারক হিসাবে DeepSeek V3) এ ফিড করে আসল উত্তরগুলি বিচার করা হয়েছিল। এছাড়াও, যেহেতু মডেল আউটপুট কখনও কখনও বিভ্রান্তিকর এবং পড়া কঠিন, তাই মিশ্র-ভাষার চিন্তার শৃঙ্খল, দীর্ঘ অনুচ্ছেদ এবং কোড ব্লকগুলি ফিল্টার করা হয়েছিল। প্রতিটি প্রম্পটের জন্য, একাধিক প্রতিক্রিয়া নমুনা করা হয়েছিল এবং শুধুমাত্র সঠিকগুলি (সেরা-অফ-N) ধরে রাখা হয়েছিল। মোট, প্রায় 600,000 যুক্তি-সম্পর্কিত প্রশিক্ষণ নমুনা সংগ্রহ করা হয়েছিল।
  • যুক্তিবিহীন তথ্য: যেমন লেখা, বাস্তব প্রশ্ন, আত্ম-সচেতনতা এবং অনুবাদ, DeepSeek-V3 প্রক্রিয়া ব্যবহার করে এবং DeepSeek-V3 এর কিছু SFT ডেটাসেট পুনরায় ব্যবহার করে। কিছু যুক্তিবিহীন কাজের জন্য, প্রশ্নের উত্তর দেওয়ার আগে সম্ভাব্য CoT তৈরি করতে DeepSeek-V3 ডাকা হয়। তবে, "হ্যালো" এর মতো সহজ প্রশ্নের জন্য, প্রতিক্রিয়ায় কোনও চিন্তার শৃঙ্খল দেওয়া হয় না। শেষ পর্যন্ত, মোট প্রায় 200,000 যুক্তিবিহীন প্রশিক্ষণের নমুনা সংগ্রহ করা হয়েছিল।

৩.৩.৪ সকল পরিস্থিতির জন্য SFT এবং RL (পর্যায়-৩)

উপরে উল্লিখিত দুটি ডেটা সেট (যুক্তি এবং অ-যুক্তি) ব্যবহার করে DeepSeek-V3-বেসে মোট প্রায় 800,000 নির্বাচিত নমুনার দুটি রাউন্ড সূক্ষ্ম-টিউনিং করা হয়েছিল।

মানুষের পছন্দের সাথে মডেলটিকে আরও সামঞ্জস্যপূর্ণ করার জন্য, লেখকরা RL-এর দ্বিতীয় পর্যায় বাস্তবায়ন করেছেন, যার লক্ষ্য মডেলটির উপযোগিতা এবং ক্ষতিকারকতা উন্নত করা এবং একই সাথে এর যুক্তি ক্ষমতাগুলিকে আরও পরিমার্জন করা। বিশেষ করে, মডেলটিকে পুরষ্কার সংকেত এবং বিভিন্ন প্রম্পট বিতরণের সংমিশ্রণে প্রশিক্ষণ দেওয়া হয়েছিল।

  • রিজনিং ডেটার জন্য, DeepSeek-R1-Zero-তে বর্ণিত পদ্ধতি অনুসরণ করা হয়, যেখানে গণিত, প্রোগ্রামিং এবং লজিক্যাল রিজনিং-এর ক্ষেত্রে মডেলের শেখার জন্য একটি নিয়ম-ভিত্তিক পুরষ্কার প্রক্রিয়া ব্যবহার করা হয়।
  • সাধারণ তথ্যের জন্য, জটিল এবং সূক্ষ্ম পরিস্থিতিতে মানুষের পছন্দগুলি ক্যাপচার করার জন্য পুরষ্কার মডেল ব্যবহার করা হয়। DeepSeek-V3 প্রক্রিয়ার উপর ভিত্তি করে পছন্দ জোড়া এবং প্রশিক্ষণ প্রম্পট বিতরণের অনুরূপ কৌশল ব্যবহার করা হয়।
  • উপযোগিতার দিক থেকে, শুধুমাত্র চূড়ান্ত সারাংশ বিবেচনা করা হয়, যাতে মূল্যায়ন ব্যবহারকারীর প্রতি প্রতিক্রিয়ার ব্যবহারিকতা এবং প্রাসঙ্গিকতার উপর দৃষ্টি নিবদ্ধ করে এবং অন্তর্নিহিত যুক্তি প্রক্রিয়ার সাথে হস্তক্ষেপ কমিয়ে আনা যায়।
  • ক্ষতিকারকতার ক্ষেত্রে, মডেলের সম্পূর্ণ প্রতিক্রিয়া ব্যাপকভাবে মূল্যায়ন করা হয়, যার মধ্যে যুক্তি প্রক্রিয়া এবং সারাংশ অন্তর্ভুক্ত থাকে, যাতে প্রজন্মের প্রক্রিয়া চলাকালীন উদ্ভূত সম্ভাব্য ঝুঁকি, পক্ষপাত বা ক্ষতিকারক বিষয়বস্তু সনাক্ত করা যায় এবং তা দূর করা যায়।
  • পরিশেষে, পুরষ্কার সংকেতগুলিকে একীভূত করে এবং ডেটা বিতরণকে বৈচিত্র্যময় করে, এমন একটি মডেল প্রশিক্ষিত করা যেতে পারে যা সুবিধা এবং ক্ষতিকারকতা উভয়কেই অগ্রাধিকার দেয় এবং যুক্তিতেও শ্রেষ্ঠত্ব অর্জন করে।

৩.৩.৫ পাতন (পর্যায়-৪)

DeepSeek-R1 এর যুক্তি ক্ষমতা দিয়ে আরও দক্ষ ছোট মডেল সজ্জিত করার জন্য, লেখকরা DeepSeek-R1-Stage-1 এ নির্বাচিত 800,000 নমুনা ব্যবহার করে ওপেন সোর্স মডেল Qwen এবং LLaMA-কে সরাসরি সূক্ষ্মভাবে সুরক্ষিত করেছেন। ফলাফলগুলি দেখায় যে এই সরাসরি পাতন পদ্ধতিটি ছোট মডেলগুলির যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। লেখকদের ব্যবহৃত মৌলিক মডেলগুলির মধ্যে রয়েছে Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B এবং Llama-3.3-70B-Instruct। Llama-3.3 নির্বাচন করা হয়েছিল কারণ এর যুক্তি ক্ষমতা Llama-3.1 এর চেয়ে কিছুটা ভালো।

পাতন মডেলের জন্য, লেখক শুধুমাত্র SFT ব্যবহার করেছেন এবং RL পর্যায় অন্তর্ভুক্ত করেননি। যদিও RL প্রবর্তন মডেলের কর্মক্ষমতা ব্যাপকভাবে উন্নত করতে পারে, এখানে লেখকের মূল উদ্দেশ্য হল পাতন প্রযুক্তির কার্যকারিতা প্রদর্শন করা, এবং RL পর্যায়ের অন্বেষণ পরবর্তী গবেষণার উপর ছেড়ে দেওয়া হয়েছে।

দ্রষ্টব্য: এছাড়াও, চূড়ান্ত DeepSeek-R1 ব্যবহার করে উপরের তথ্য তৈরি করা এবং পাতন করার জন্য ব্যবহৃত 800,000 তথ্য পুনর্গঠন করা সম্ভব, এবং পাতন মডেলটি আরও ভাল প্রভাব ফেলতে পারে; তবে, মূল্য হল যে তথ্য পুনর্গঠন করা প্রয়োজন।

অনুরূপ পোস্ট

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।