היום נשתף DeepSeek R1, כותרת: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: תמריץ את יכולת החשיבה של LLM באמצעות למידת חיזוק.
מאמר זה מציג את הדור הראשון של דגמי החשיבה של DeepSeek, DeepSeek-R1-אפס ו DeepSeek-R1. דגם DeepSeek-R1-Zero הוכשר למידת חיזוק בקנה מידה גדול (RL) ללא כוונון עדין מפוקח (SFT) כצעד ראשוני, המדגים את הפוטנציאל של RL ואת יכולות החשיבה המעולות זה מביא. באמצעות למידת חיזוק, DeepSeek-R1-Zero הופיע באופן טבעי עם התנהגויות חשיבה רבות עוצמה ומעניינות. כדי לייעל עוד כמה מהבעיות עם R1-Zero (בלבול לשוני, יכולת הכללה משופרת), הם פרסמו DeepSeek-R1, המשלב אימון רב-שלבי וכיוונון עדין של נתוני התחלה קרה לפני למידת חיזוק. DeepSeek-R1 השיג ביצועים דומים על משימת ההיגיון עם OpenAI-01-1217. כדי לתמוך בקהילת המחקר, הם עשו זאת קוד פתוח DeepSeek-R1-Zero, DeepSeek-R1, ושישה דגמים צפופים (1.5B, 7B, 8B, 14B, 32B, 70B) מזוקקים מ-DeepSeek-R1, המבוססים על Qwen ו-Llama.
מאפייני השיטה מסוכמים כדלקמן:
- למידת חיזוק מיושמת ישירות על מודל הבסיס, מבלי להסתמך על כוונון עדין מפוקח (SFT) כצעד ראשוני.
- תהליך הפיתוח DeepSeek-R1 מוצג, אשר משלב שני שלבי למידת חיזוק ושני שלבי כוונון עדין מפוקחים כדי להניח את הבסיס ליכולות ההגיון והאי-הנמקות של המודל.
- הביצועים של מודלים קטנים במשימות חשיבה משופרים על ידי העברת דפוסי החשיבה של מודלים גדולים למודלים קטנים באמצעות טכניקות זיקוק.
סקירה כללית
- כּוֹתֶרֶת: DeepSeek-R1: תמריץ יכולת הנמקה בלימודי תואר שני באמצעות למידת חיזוק
- מחברים: DeepSeek-AI
- Github: deepseek R1
מוֹטִיבָצִיָה
- מודלים נוכחיים של שפה גדולה (LLMs) התקדמו משמעותית במשימות הסקת מסקנות, אך עדיין מתמודדים עם אתגרים.
- הפוטנציאל של טהור למידת חיזוק (RL) בשיפור יכולת החשיבה של LLMs לא נחקרה במלואה, במיוחד מבלי להסתמך על נתונים מפוקחים.
- דוגמניות שהוכשרו דרך RL, כגון DeepSeek-R1-Zero, יש בעיות בקריאה ובערבוב שפות (למשל, דיבור סינית ואנגלית מעורבת), וזקוקים לשיפור נוסף כדי לשפר את הידידותיות למשתמש.
שיטות

DeepSeek-R1-Zero: משתמש ב-DeepSeek-V3-Base כדגם הבסיס, ו GRPO (Group Relative Policy Optimization) בתור הלמידה התגבורת מִסגֶרֶת, ללא נתונים מפוקחים כדי לשפר את ביצועי המודל בהסקה.
DeepSeek-R1:
- התחלה קרה: אוסף כמות קטנה של נתוני CoT ארוכים (שרשרת מחשבה) ואיכותיים ומכוונן את דגם DeepSeek-V3-Base כשחקן ראשוני ללמידת חיזוק.
- למידת חיזוק מכוונת-היגיון: אוֹתוֹ הַדָבַר תהליך אימון למידת חיזוק כאשר DeepSeek-R1-Zero מיושם, אך עם התמקדות בשיפור יכולות החשיבה של המודל בתחומים כמו קידוד, מתמטיקה, מדע והיגיון לוגי. תגמולי עקביות לשוניים מוצגים כדי להפחית את בעיית הערבוב הלשוני המתרחשת ב-CoT.
- דגימת דחייה וכיוונון מפוקח: משתמש בנקודת המחסום המתכנסת של למידת חיזוק כדי לאסוף נתוני כוונון עדין מפוקח (SFT). לאימון הבא.
- למידת חיזוק לכל התרחישים: מיישמת שלב למידת חיזוק ברמה השנייה, שמטרתה לשפר את מועילות וחוסר מזיקות של המודל תוך ייעול יכולת החשיבה שלו.
- זיקוק ידע: כוונון עדין של דגמי הקוד הפתוח Qwen ו-Llama ישירות באמצעות 800,000 הדגימות שנאספו על ידי DeepSeek-R1.
שיטות ונהלים מפורטים:

DeepSeek-R1-Zero: למידת חיזוק עבור דגמי בסיס
- אלגוריתם למידת חיזוק: משתמש באלגוריתם Group Relative Policy Optimization (GRPO), אשר אינו דורש א מְבַקֵר מודל, מעריך את קו הבסיס לפי ציוני הקבוצה, ומפחית את עלויות ההדרכה.
- דוגמנות תגמול: משתמש ב- a מערכת תגמול מבוססת כללים, כולל

- תגמול דיוק: מעריך אם התשובה נכונה, כגון נכונות התוצאה הסופית של תשובה לבעיה מתמטית, המשוב מהמהדר לבעיות קוד.
- פרס פורמט: מעודדת את הדוגמנית למקם את תהליך החשיבה ביניהם
ו
תגים.
תבנית הדרכה: תבנית המכילה ו
תגיות מיועדות ל להנחות את המודל לפלט תחילה את תהליך החשיבה, ולאחר מכן את התשובה הסופית.

- תהליך אבולוציוני עצמי: DeepSeek-R1-Zero הודגם מאפיינים אבולוציוניים עצמיים במהלך האימון, והיה מסוגל ללמוד באופן אוטונומי אסטרטגיות חשיבה מורכבות יותר, כגון השתקפות וחקירה של מסלולים רבים לפתרון בעיות.

DeepSeek-R1: למידת חיזוק בשילוב עם התחלה קרה

- התחלה קרה: כדי לפתור DeepSeek-R1-Zero's בעיית קריאות, DeepSeek-R1 אוסף תחילה כמות קטנה של נתוני CoT באיכות גבוהה ומכוונן עדין את דגם DeepSeek-V3-Base ל לשמש כשחקן ראשוני ללמידת חיזוק. נתוני ההתחלה הקרה מכיל תגי סיכום ותשובות לא ידידותיות מסוננים החוצה.
- שיטה: 1) בחר נתוני Long COT באיכות גבוהה. 2) הוסף ותגים.
- יתרונות: 1) קריאה מיטבית (פתור את הבעיה הרב-לשונית של R1-Zero או בעיית פורמט הסימון). 2) נתונים מועדפים על ידי אדם שנבחרו בקפידה יכולים להמשיך ולשפר את הביצועים ב-R1-Zero.
- שאלה: למה לפתור את בעיית הקריאות? האם לא ניתן לעשות טוב יותר מבלי לפתור את זה (למשל, להקטין את אורך הפלט ולהסיק בצורה יעילה יותר)?
- RL מכוון היגיון: בהתבסס על מודל ההתחלה הקרה, תהליך למידה חיזוק דומה ל DeepSeek-R1-Zero מיושם, תוך התמקדות בשיפור יכולת המודל במשימות כמו קידוד, מתמטיקה, חשיבה מדעית והגיונית. כדי לפתור את הבעיה של שפות מעורבות (חשיבה מרובת שפות), תגמול עקביות שפה מוצגים.
- שאלה: כיצד מאומנים משימות חשיבה מדעיות והגיוניות ומערכי נתונים?
- דגימת דחייה ו-SFT: לאחר שלמידת החיזוק מונחית ההסקה מתכנסת, נקודת המחסום שהושגה משמשת עבור דגימת דחייה ליצירת נתוני SFT חדשים, המשולבים עם הנתונים מ-DeepSeek-V3 כדי לשפר את יכולות המודל בכתיבה, משחק תפקידים ומשימות כלליות.
- מַטָרָה:
- שלב זה מתחיל לאחר ה תהליך למידה מכוונת מסקנות (RL) מתכנס.
- המטרה העיקרית היא לאסוף נתוני כוונון עדין מפוקח (SFT). לשימוש בסבבי אימונים הבאים.
- בניגוד לנתוני ההתחלה הקרה הראשונית, המתמקדים רק בהסקת מסקנות, שלב זה שואף לכך להרחיב את יכולות הדגם לכסות כתיבה, משחקי תפקידים ומשימות אחרות למטרות כלליות, לא רק מסקנות.
- איסוף נתונים – נתוני מסקנות:
- שִׁיטָה: השתמש בנקודות ביקורת שהתקבלו משלב RL מונחה הסקה כדי ליצור מסלולי הסקה על ידי דגימת דחייה.
- הרחבת מערך הנתונים: בניגוד לשלב ה-RL הקודם, שהשתמש רק בנתוני תגמול מבוססי כללים, מוצגים כאן נתוני תגמול שאינם מבוססי כללים. במקרים מסוימים, נעשה שימוש במודל תגמול מחולל (DeepSeek-V3) כדי לקבוע את התגובה.
- סינון נתונים: כדי להבטיח איכות וקריאה, הפלט מסונן כדי להסיר:
- שרשראות מחשבה המכילות שפות מעורבות
- פסקאות ארוכות
- בלוקי קוד
- דגימה ובחירה: עבור כל הנחיה, נוצרו מספר תגובות. רק התגובה ה"נכונה" נשמרה עבור מערך הנתונים.
- גודל מערך הנתונים: בְּעֵרֶך 600,000 דגימות אימון הקשורות להסקת מסקנות נאספו בדרך זו.
- איסוף נתונים – נתונים ללא מסקנות:
- סיקור: כתיבה, מענה על שאלות עובדתיות (QA), מודעות עצמית ותרגום.
- העיתון מזכיר את השימוש ב התהליך של DeepSeek-V3 ושימוש חוזר בחלק ממערך הנתונים DeepSeek-V3 SFT לטפל במשימות ללא מסקנות אלו. אוֹדוֹת 200,000 דגימות בלתי תלויות במסקנות נאספו. (הערה: הפרטים של איסוף נתונים ללא מסקנות מתוארים עוד בסעיף 2.3.4)
- שימוש בנתונים שנאספו:
- לאחר מכן נעשה שימוש בנתוני ההנמקה והאי-הנמקה שנאספו (סה"כ כ-800,000 דגימות - 600,000 דגימות הנמקה + 200,000 דגימות שאינן מנמקות) כוונון עדין של דגם DeepSeek-V3-Base עבור שני עידנים. מודל מכוונן זה שימש לאחר מכן בשלב ה-RL הסופי המתואר בסעיף 2.3.4.
- תַקצִיר שלב זה משתמש ביכולות ההסקה למד באמצעות RL ליצור מערך נתונים מגוון ואיכותי של SFT. מערך נתונים זה מחזק את יכולות ההסקה וגם מרחיב את היכולות הכלליות של המודל לאימון בשלב היישור והשיפור הסופי.
- מַטָרָה:
- למידת חיזוק לכל התרחישים: כדי ליישר עוד יותר את ההעדפות האנושיות, מיושם שלב שני של למידת חיזוק כדי לשפר את יעילותו ואי-המזיקה של המודל.
- נתוני הסקה: למשל מתמטיקה, קוד, הסקה לוגית או בפיקוח בשיטות בסיס כללים.
- נתונים כלליים: מודלים של תגמול עדיין משמשים כדי לספק מידע העדפות עבור תרחישים מורכבים ועדינים. מודלים מאומנים עם נתונים זוגיים מוערכים גם הם.
- שימושיות: התמקד רק בתוצאות הסיכום הסופיות, הפחתת הפרעה לתהליך ההסקה.
- חוסר מזיק: לפקח על כל התגובה כדי להפחית סיכונים כלשהם.
זיקוק דגם (זיקוק):
- על מנת להשיג מודל היסק קטן יעיל יותר, הנייר מזקק את יכולת ההסקה של DeepSeek-R1 לתוך דגמי הקוד הפתוח של סדרת Qwen ו-Llama. תהליך הזיקוק משתמש רק בכוונון מפוקח (SFT) ואינו משתמש בשלב למידת החיזוק.
מַסְקָנָה
DeepSeek-R1-אפס: מדגים את הפוטנציאל של למידת חיזוק טהור בהנעת יכולת הסקת LLM, ויכולה להשיג ביצועים חזקים מבלי להסתמך על נתונים מפוקחים.


- אהה-רגע: היופי בלמידת חיזוק (רגע ההארה של המודל, איפה זה מקצה יותר זמן חשיבה לבעיה על ידי לימוד הערכה מחדש הגישה הראשונית)
- אורך הפלט ממשיך לגדול (זמן החשיבה ממשיך לגדול)
- הדיוק ממשיך להשתפר (דגימת 16 תגובות לחישוב הדיוק)

- DeepSeek-R1: משפר עוד יותר את ביצועי המודל על ידי שילוב של נתוני התחלה קרה וחיזוק איטרטיבי למידת כוונון עדין, השגת רמה דומה ל-OpenAI-01-1217 במשימות שונות.

- זיקוק ידע: באמצעות DeepSeek-R1 כמודל מורה, נוצרו דגימות הדרכה של 800K וכמה מודלים קטנים וצפופים כוונו עדין. התוצאות מראות שזה שיטת זיקוק יכולה לשפר משמעותית את יכולת ההסקה של דגמים קטנים.
הַגבָּלָה
- מגבלה 1: יש לשפר את היכולת הכללית של DeepSeek-R1. DeepSeek-R1 עדיין נחות מ-DeepSeek-V3 במשימות כמו קריאות פונקציות, דיאלוג מרובה פניות, משחק תפקידים מורכב ופלט JSON.
- מגבלה 2: בעיית ערבוב שפה. DeepSeek-R1 עשוי להיתקל בבעיית ערבוב שפות בעת עיבוד שאילתות שאינן סיניות ושאינן אנגלית, למשל, נימוקים ומענה באנגלית.
- מגבלה 3: רגישות מיידית. DeepSeek-R1 רגיש למילים הנחיות, והנחיה של מספר יריות יפחיתו את הביצועים שלו.
- מגבלה 4: יישום מוגבל למשימות הנדסת תוכנה. בשל זמן ההערכה הארוך, למידת חיזוק בקנה מידה גדול לא יושמה במלואה על משימות הנדסת תוכנה, ול-DeepSeek-R1 יש שיפור מוגבל לעומת DeepSeek-V3 במדדי הנדסת תוכנה.