פרשנות נייר DeepSeek R1 ונקודות מפתח טכניות

1 רקע

במהלך פסטיבל האביב, DeepSeek R1 שוב משך תשומת לב רחבה, ואפילו מאמר הפרשנות של DeepSeek V3 שכתבנו בעבר הועבר גם הוא מחדש ונדון רבות.

למרות שהיו הרבה ניתוחים ושחזורים של DeepSeek R1, כאן החלטנו לאסוף כמה הערות קריאה תואמות.

נשתמש בשלושה דיאגרמות ליבה סכמטיות כדי להדגים את בניית המודל ונקודות מפתח טכניות, ונזקק את המהות של סדרת DeepSeek-R1 כדי לספק הבנה אינטואיטיבית יותר של רעיונות העיצוב שלה.

הנייר המתאים הוא [2501.12948] DeepSeek-R1: תמריץ יכולת הנמקה בלימודי תואר שני באמצעות למידת חיזוק

ומודל הקוד הפתוח המתאים הוא DeepSeek-R1

2 מבוא

2.1 אלגוריתמי נימוק נפוצים

כפי שמוצג באיור 2 להלן, המחבר מסביר את ארבעת אלגוריתמי ההיגיון הנפוצים. למרות שהם שונים בפרטים ספציפיים, כולם כוללים שתי פעולות ליבה:

הרחבה: צור אסימונים כדי להרחיב את נתיב הפתרון.
צבירה: שלב את התוצאות של כל נתיב כדי לקבל את התשובה הסופית. הגדלת המשאבים החישוביים בשלב ההרחבה יכולה בדרך כלל לשפר את איכות התשובה בשלב הצבירה.

עקביות עצמית (SC). כפי שמוצג באיור 2a, הרעיון המרכזי של SC הוא לייצר מספר פלטים שונים (שניתן להשיג על ידי שינוי פרמטרי דגימה וכו'), ולאחר מכן להצביע עבור כל התשובות כדי לבחור את התשובה עם שיעור הזכייה הגבוה ביותר. הפרמטר המרכזי הוא מספר תשובות המועמדים n.

אלגוריתם Rebase: כפי שמוצג באיור 2b להלן, Rebase מייצר גם פלטים מרובים, אך הם נוצרים במספר שלבים. כל שלב מקבל ניקוד באמצעות מודל התגמול, והתוצאה עם הניקוד הגבוה ביותר משמשת להמשך היצירה. לבסוף, נוצר עץ חשיבה עם מספר ענפים. התשובה עם הציון הגבוה ביותר (Best-of-N) נבחרה בשלב הצבירה.

חיפוש עץ מונטה קרלו (MCTS): כפי שמוצג באיור 2c להלן, MCTS הוא אלגוריתם נימוק רב עוצמה המרחיב צמתים על ידי דגימה הדרגתית ובונה עץ פתרונות עד שהוא מגיע לצומת עלים המכיל פתרון מועמד. כל פתרון מקבל ניקוד באמצעות מודל תגמול או סימולציה, והניקוד מופץ בחזרה לצמתי האב הקדמון שלו כדי לעדכן את ערכי התגמול שלהם, ובכך להשלים איטרציה. הפרמטר המרכזי הוא גם n, והגדלת n מאפשרת חקירה מעמיקה ורחבה יותר של פתרונות פוטנציאליים.

שרשרת קוגניטיבית מופנמת (ICoT). כפי שמוצג באיור 2d להלן, ה-LLMs העדכניים ביותר, כגון OpenAI o1 ו-Qwen-QWQ, יכולים להפנים התנהגות חשיבה במהלך האימון ללא צורך באלגוריתם נימוק מפורש. הרעיון המרכזי הוא ליצור רצף CoT, לפרק בעיות מורכבות לבעיות משנה מרובות, ולאחר מכן לבצע אופטימיזציה איטרטיבית של תשובות אלו על ידי שיקוף על תפוקות קודמות כדי להגיע בסופו של דבר לפתרון.

2.2 שיטות יישור הנמקות

2.2.1 סקירת שיטת Best-of-N

בקיצור, Best-of-N היא שיטת יישור בשימוש נרחב בהסקת LLM, שמטרתה להבטיח את האיכות הגבוהה של התוצאות שנוצרו על ידי יצירת מספר תגובות מועמדים ובחירת הטוב ביותר. הוא מורכב משלושה תהליכים עיקריים:

תהליך יצירת: עבור הנחיה X נתונה, שיטת Best-of-N מייצרת N תגובות IID (Y₁, Y₂, …, Yₙ), כאשר N מכונה לעתים קרובות "גודל אצווה".
מנגנון ניקוד: כל תגובה שנוצרת מקבלת ניקוד על ידי מודל תגמול כדי לקבל ציון תואם {s(Y₁), s(Y₂), …, s(Yₙ)}.
בחירת התגובה הטובה ביותר: לבסוף, התגובה עם הציון הגבוה ביותר מבין כל התגובות שנוצרו נבחרה כפלט, כלומר, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

היתרונות של שיטה זו הם:

זה יכול למנוע ביעילות שלבי כוונון עדין מורכבים, מה שמקל על פריסת מודלים של שפה שעברו הכשרה מראש או כוונון עדין עם הוראות.
זה פשוט ליישום, קל להבנה, ולמעשה ללא הפרמטרים: ההיפרפרמטר הראשי הוא N, אותו ניתן לכוונן באופן דינמי במהלך ההסקה.
זה תחרותי מאוד מבחינת איכות הדור ואף יכול להתחרות בכמה טכניקות מורכבות לאחר אימון כמו RLHF או DPO. מחקרים מראים ששיטת Best-of-N מתפקדת היטב בעקומת ההחלפה בין תגמול לסטיית KL, אפילו עולה על אסטרטגיות יישור מורכבות אחרות.

החסרונות של שיטה זו הם

ההסקה דורשת יצירת N רצפים, מה שיכול להוביל לתקורה חישובית משמעותית. בפועל, ערך סביר ל-N נע בין 4 ל-128, אך כדי להתחרות בשיטות שלאחר האימון המתקדמות ביותר, עשויים להידרש ערכי N גבוהים יותר, כמו 1000 עד 60000, מה שעלול להוביל לתקורת חישוב כמעט בלתי מקובלת.

שיטת ה-Best-of-N משמשת לעתים קרובות ליצירת מערכי נתונים באיכות גבוהה עבור כוונון עדין מפוקח לאחר מכן ומילאה תפקיד מפתח בתהליך היישור של LLaMA-2 ו- LLaMA-3.

2.2.2 שיטת OpenAI best-of-N

OpenAI הציעה לראשונה דגימת Best-of-N ב [2009.01325] לימוד סיכום ממשוב אנושי . באופן ספציפי, הוא משמש כדי להעריך ולמטב את הביצועים של מודל הסיכום על ידי בחירת הסיכום הטוב ביותר שנוצר ממספר מודלים. שיטה זו מסייעת לחוקרים להבין טוב יותר את הקשר בין מדדי הערכה שונים והעדפות מאבחנים אנושיים, והיא משמשת להנחיית הדרכה ואופטימיזציה של מודלים.

OpenAI משתמשת גם בדגימת Best-of-N (דגימת דחייה) במעקב [2112.09332] WebGPT: מענה על שאלות בעזרת דפדפן עם משוב אנושי. באופן ספציפי, מספר קבוע של תשובות (4, 16 או 64) נדגמים ממודל BC או RL, וזה עם ציון מודל התגמול הגבוה ביותר נבחר כשיטת אופטימיזציה עבור מודל התגמול היריב. שיטה זו אינה דורשת הכשרה נוספת, אך מגדילה את המורכבות החישובית של שלב ההסקה להשגה.

2.2.3 שיטת Google BOND

ב [2407.14622] BOND: יישור LLMs עם Best-of-N Distillation, המחברים מגוגל מציעים Best-of-N Distillation (BOND), אלגוריתם RLHF חדש שנועד לדמות את אסטרטגיית הדגימה Best-of-N באמצעות אלגוריתם התאמת הפצה מבלי להגדיל משמעותית את התקורה החישובית במהלך ההסקה.

באופן ספציפי, המחבר שואב תחילה את ההתפלגות האנליטית המדויקת של דגימת Best-of-N ונותן את פונקציית ההסתברות של דגימת Best-of-N:

שנית, המחברים מבטאים את הבעיה כבעיית התאמת התפלגות;

לאחר מכן, המחברים מציעים להשתמש בדיברגנציה של ג'פרי כמטרת התאמת התפלגות:

לבסוף, כדי לפתור את בעיית הבחירה ב-N, הכותבים מציעים את שיטת BOND האיטרטיבית, המשפרת את ביצועי האסטרטגיה על ידי זיקוק איטרטיבי של התפלגות Best-of-N. השלבים הספציפיים כוללים:

אתחל את אסטרטגיית העוגן העזר π(עוגן).

בצע את BOND באופן איטרטיבי כדי לזקק את Best-of-N π(עוגן) ולעדכן את π(עוגן) לאחר כל שלב.

2.3 פיקוח תהליכים ופיקוח תוצאות

תוצאה ותהליך מתייחסים לשני ההיבטים של הערכת מודל התגמול:

מודל תגמול תוצאה: הערך אם התוצאה הסופית של פלט המודל נכונה או כצפוי.
מודל תגמול תהליכי: מעריך האם שלבי ההיגיון וקבלת ההחלטות של המודל בתהליך יצירת התוצאות סבירים ויעילים.

לדוגמה, Let's Verify של OpenAI Step by Step | OpenAI מזכיר גם:

פיקוח תהליכים (בפיקוח תוצאה): כולל מתן משוב על כל שלב בתהליך ההיגיון של המודל. מודלים של תגמול בפיקוח תהליכים (PRM) מאומנים לחזות את הנכונות של כל שלב בפתרון.
תוצאה מפוקחת: תוצאה מפוקחת מספקת משוב המבוסס רק על התוצאה הסופית של הנמקת המודל. מודלים בפיקוח תוצאות (ORM) מאומנים באמצעות התשובה הסופית של הפתרון, והנכונות נקבעת על ידי בדיקה אוטומטית.

2.4 פריצת תגמולים

ב-RL, פריצת תגמול מתייחסת לתופעה שבה סוכן מנצל פגם בעיצוב פונקציית התגמול כדי למקסם את התגמול המצטבר באופן שאינו עונה על הכוונה המקורית של המעצב. למרות שהתנהגות זו עונה מבחינה טכנית על יעד האופטימיזציה של פונקציית התגמול, ההשפעה בפועל חורגת ממטרת המשימה הצפויה ואף עשויה להוביל להשלכות שליליות.

ניתוח נקודות מפתח:

הגדרה וביטוי:
1. הסוכן מוצא פגם בתפקוד התגמול ומשיג תגמול גבוה על ידי ביצוע "קיצורי דרך" במקום לפתור את הבעיה בפועל.
2. לדוגמה, רובוט ניקוי מכבה את האורות כדי לגרום לחדר "להיראות" נקי, במקום לנקות אותו בפועל; סוכן משחק קולע שוב ושוב נקודות מבלי להשלים את שער הרמה; בחירה שלא להאט על מנת לצמצם את מספר זמני הבלימה, המהווה סכנה בטיחותית; יצירת תוכן חסר משמעות התואם למילות מפתח כדי להערים על ציונים גבוהים.
סיבות שורש:
1. עיצוב פונקציית תגמול לא שלם: פישוט יתר או כישלון בכיסוי מקרי קצה.
2. חוסר התאמה בין יעדים לתגמולים: פונקציית התגמול לא מצליחה לשקף במלואה את המטרה האמיתית, מה שגורם לסוכן לבצע אופטימיזציה למטרה ה"שגויה".
פתרונות:
1. שפר את עיצוב התגמול: הכנס תגמולים רב מימדיים (למשל בטיחות, יעילות וכו') או התאם באופן דינמי את פונקציית התגמול.
2. אימות יריב: גלה אם הסוכן "בוגד" באמצעות מנגנונים נוספים.
3. התערבות ידנית ואילוצים: הגדר גבולות התנהגותיים (למשל שכבת בטיחות) או משוב ידני (למשל RLHF).
4. למידה של חיזוק הפוך (IRL): למד פונקציית תגמול מציאותית יותר מהדגמות של מומחים.
5. למידת חיזוק היררכי: פירוק המשימה ליעדי משנה כדי להפחית את הסיכון לאופטימיזציה מקומית.
קשר עם התאמה יתר:
1. שניהם מפגינים נתק בין מדדי אימון לביצועים בעולם האמיתי, אבל Reward Hacking שם דגש יותר על פגמי העיצוב של פונקציית התגמול מאשר על יכולת ההכללה של המודל.
תַקצִיר:
1. פריצת תגמול חושפת את האתגר של יישור מטרות ב-RL. פתרון בעיה זו דורש שילוב של תכנון מנגנוני תגמול חזקים יותר, הצגת אילוצים חיצוניים ושילוב ידע מוקדם אנושי כדי להבטיח שהתנהגות הסוכן היא גם יעילה וגם תואמת את כוונת התכנון.

3 DeepSeek-R1-Zero ו-DeepSeek-R1

3.1 סקירה כללית

מחקרים קודמים הסתמכו במידה רבה על כמויות גדולות של נתונים מפוקחים כדי לשפר את ביצועי המודל. מחקר זה מראה שגם ללא SFT כהתחלה קרה, RL בקנה מידה גדול יכול לשפר משמעותית את יכולת ההיגיון של המודל. בנוסף, הכנסת כמות קטנה של נתוני התחלה קרה יכולה לייעל עוד יותר את הביצועים. להלן הדגמים הקשורים ל-DeepSeek-R1:

DeepSeek-R1-Zero: מודל זה מחיל RL ישירות על דגם הבסיס ללא כל נתוני SFT.
DeepSeek-R1: מודל זה מיישם RL החל מנקודת ביקורת שעברה כוונון עדין עם אלפי דגימות CoT ארוכות.
DeepSeek-R1-Distill-xx: מזקק את יכולת ה-Reasoning של DeepSeek-R1 לדגם צפוף קטן.

3.2 DeepSeek-R1-Zero

האיור הבא מציג את נקודות המפתח באימון של דגם DeepSeek-R1-Zero:

נ.ב.: יש לציין שהעיתון אינו מספק מידע רב על הנתונים המשמשים בתהליך RL של DeepSeek-R1-Zero. עם זאת, ישנו הסבר מסוים על תהליך יצירת הנתונים והכמות באימוני R1 הבאים, אם כי הוא אינו ספציפי במיוחד.

3.2.1 אלגוריתם RL

כדי להפחית את עלות ההכשרה של RL, המחברים משתמשים בשיטת GRPO (Group Relative Policy Optimization) של DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. שיטה זו נוטשת את מודל ה-Critic, שבדרך כלל ניתן להשוואה בגודלו למודל המדיניות, ובמקום זאת אומדת את קו הבסיס באמצעות ציון קבוצתי. ההסבר המתאים מוצג באיור למטה (תמונה מטוויטר):

3.2.2 דוגמנות תגמול

התגמולים הם המקור לאותות האימון וקובעים את כיוון האופטימיזציה של RL. כדי לאמן את DeepSeek-R1-Zero, המחברים השתמשו במערכת תגמול מבוססת כללים, המורכבת בעיקר משני סוגים של תגמולים:

תגמול דיוק: הערך אם התגובה נכונה. לְדוּגמָה:
- בבעיות מתמטיות עם תוצאות דטרמיניסטיות, המודל צריך לספק את התשובה הסופית בפורמט מסוים (כגון בתוך קופסה) כדי שניתן יהיה לאמת את נכונותו באופן מהימן על ידי כללים.
- באופן דומה, עבור בעיות LeetCode, ניתן ליצור משוב באמצעות מהדר המבוסס על מקרי בדיקה מוגדרים מראש.
תגמול פורמט: תגמול פורמט משמש גם כדי לאלץ את המודל למקם את תהליך החשיבה שלו בין " " ו" "תגים.

במהלך הפיתוח של DeepSeek-R1-Zero, המחבר לא השתמש במודל התגמול העצבי של תוצאת או במודל התגמול העצבי של התהליכים מכיוון שהמחבר מצא שמודל התגמול העצבי עלול להיתקל בזיוף תגמול (Reward Hacking) בתהליכי RL בקנה מידה גדול; בנוסף, אימון מחדש של מודל התגמול לא רק מצריך משאבי אימון נוספים, אלא גם מסבך את תהליך ההכשרה כולו.

3.2.3 תבנית הדרכה

כדי לאמן את DeepSeek-R1-Zero, המחברים עיצבו תחילה תבנית פשוטה שתנחה את מודל הבסיס לפעול לפי ההוראות שנקבעו. כפי שמוצג בטבלה 1 להלן, התבנית דורשת DeepSeek-R1-Zero כדי ליצור תהליך מסקנות ולאחר מכן לתת את התשובה הסופית.

המחבר הגביל בכוונה את האילוצים למסגרת מבנית זו כדי להימנע מהכנסת כל הטיית תוכן - למשל, כפיית חשיבה רפלקטיבית או קידום אסטרטגיות ספציפיות לפתרון בעיות - כדי להבטיח שניתן לצפות במדויק בהתפתחות הטבעית של המודל במהלך תהליך ה-RL.

3.2.4 מסקנה

יכולות חשיבה חזקות ללא נתוני SFT: על ידי הפעלת RL ישירות ממודל הבסיס, ניתן לעקוב מקרוב אחר מסלול ההתפתחות של המודל ללא הפרעות SFT. כפי שמראה איור 3 להלן, זמן החשיבה של DeepSeek-R1-Zero המשיך להשתפר (אורך הגדילה התארך בהדרגה) לאורך תהליך האימון. שיפור זה לא הגיע מהתאמות חיצוניות, אלא היה תוצאה טבעית של התפתחותו הפנימית של המודל. DeepSeek-R1-Zero השיג באופן טבעי את היכולת לפתור משימות מסקנות מורכבות יותר ויותר, כגון היכולת לשקף, באמצעות חישובי זמן מבחן ממושכים.

DeepSeek-R1-Zero חווה "רגע אהה" במהלך האימון. כפי שמוצג בטבלה 3 להלן, רגע זה התרחש בשלב הגרסה האמצעית של הדגם. במהלך שלב זה, DeepSeek-R1-Zero למד להקצות יותר זמן חשיבה לבעיות על ידי הערכה מחדש של הגישה הראשונית שלו.

הצבעת רוב: ניתן לשפר עוד יותר את הביצועים של DeepSeek-R1-Zero על ידי החלת הצבעת רוב. לדוגמה, כפי שמוצג בטבלה 2 להלן, לאחר שימוש בהצבעת הרוב במבחן ה-benchmark של AIME, הביצועים שלו קופצים מ-71.0% ל-86.7%, ועוברים על OpenAI-o1-0912.

חולשות: בעוד DeepSeek-R1-Zero מפגין יכולות Reasoning חזקות ומפתח באופן אוטונומי התנהגויות Reasoning בלתי צפויות ועוצמתיות, הוא עדיין מתמודד עם אתגרים כמו קריאה לקויה וערבוב שפות.

3.3 DeepSeek-R1

כדי להפוך את תהליך ה-Reasoning לקריאה יותר ולשתף אותו עם הקהילה הפתוחה, המחברים חוקרים עוד את שיטת DeepSeek-R1, המשתמשת בנתוני התחלה קרה ידידותית לאדם עבור RL. בהשראת DeepSeek-R1-Zero, שתי שאלות טבעיות בהמשך:

האם ניתן לשפר עוד יותר את ביצועי ההיגיון או להאיץ את תהליך ההתכנסות על ידי הכנסת כמות קטנה של נתונים באיכות גבוהה כהתחלה קרה?
כיצד נוכל להכשיר מודל ידידותי למשתמש שלא רק מייצר CoTs ברור וקוהרנטי, אלא גם מפגין יכולות הכללה חזקות?

בתגובה לשאלות אלו, תכננו תהליך הדרכה עבור DeepSeek-R1. התהליך מורכב ממספר שלבים, כמתואר להלן:

שלב-1, כפי שמוצג באיור למטה, מאמן את מצב הביניים של DeepSeek-R1 דרך SFT + RL:

האיור הבא מציג את השלבים-2, 3 ו-4:

שלב 2: שמאל למעלה, בנה נתונים של 200K לא-היגיון ונתוני 600K של היגיון.
שלב 3: ימין למעלה, רכבת SFT + RL DeepSeek-R1.
שלב-4: נתון נמוך יותר, Distill DeepSeek-R1-Distill-xx.

3.3.1 התחלה קרה (שלב 1)

שלא כמו DeepSeek-R1-Zero, כדי למנוע את שלב ההתחלה הקרה הלא יציבה של מודל הבסיס בתחילת אימון RL, המחברים בנו ואספו כמות קטנה של נתוני Long CoT עבור DeepSeek-R1 כדי לכוונן את המודל כשחקן RL הראשוני. כדי לאסוף נתונים אלה, המחברים בחנו שיטות שונות:

שימוש בהנחיות של מספר יריות עם דוגמאות Long CoT
הנחיה ישירות למודל ליצור תשובות מפורטות עם השתקפות ואימות
איסוף פלט DeepSeek-R1-Zero בפורמט קריא לאדם
חידוד התוצאות באמצעות עיבוד לאחר עם תיוג ידני

המחברים אספו בסך הכל אלפי נתונים של Cold Start, ששימשו לכוונון עדין של DeepSeek-V3-Base כנקודת ההתחלה של RL. בהשוואה ל-DeepSeek-R1-Zero, היתרונות של נתוני Cold Start כוללים

קריאות: ניתן לערבב תגובות DeepSeek-R1-Zero במספר שפות או חסרות את עיצוב ה-Markdown המשמש להדגשת תשובות המשתמש. לעומת זאת, בעת יצירת נתוני Cold Start עבור DeepSeek-R1, המחבר עיצב פורמט קריא הכולל סיכום בסוף כל תגובה ומסנן תגובות בלתי קריאות. כאן, פורמט הפלט מוגדר כ-|special_token| |אסימון_מיוחד|
, כאשר reasoning_process הוא החשיבה המשורשרת של השאילתה וסיכום משמש לסיכום תוצאות ההגיון.
פוטנציאל: על ידי תכנון קפדני של שילוב של דפוסי נתונים אנושיים אפריוריים של Cold Start, הבחינו המחברים שהביצועים שלו עדיפים על DeepSeek-R1-Zero.

3.3.2 RL מונחי היגיון (שלב 1)

לאחר כוונון עדין של DeepSeek-V3-Base על נתוני Cold Start, נעשה שימוש באותו תהליך אימון RL בקנה מידה גדול כמו DeepSeek-R1-Zero. שלב זה נועד לשפר את יכולתו של המודל במשימות עתירות חשיבה, במיוחד בנושאי תכנות, מתמטיקה, מדעים ובעיות חשיבה לוגית עם פתרונות ברורים.

במהלך האימון, המחברים הבחינו ש-CoT סבל לעתים קרובות מערבוב שפות, במיוחד כאשר ההנחיה RL כללה מספר שפות. כדי להקל על בעיית ערבוב השפה, המחברים הציגו פרס עקביות בשפה באימון RL, אשר מחושב על סמך שיעור המילים בשפת היעד ב-CoT. למרות שניסויי אבלציה מראים ששיטת יישור זו מובילה לירידה קלה בביצועי המודל, מנגנון תגמול זה תואם את העדפות האדם ומשפר את הקריאה. לבסוף, המחברים מוסיפים ישירות את הדיוק של משימת ההיגיון לתגמול עקביות השפה כדי ליצור את התגמול הסופי, ומיישמים אימון RL על המודל המכוונן עד שהוא מתכנס למשימת ההיגיון.

3.3.3 בניית 800,000 נתונים נבחרים (שלב 2)

בעוד RL for Reasoning מתכנס, נתוני SFT נאספים באמצעות נקודת הבידוק המתקבלת עבור סבב האימונים הבא. בניגוד לנתוני ה-Cold Start הראשוניים, המתמקדים בעיקר ב-Reasoning, שלב זה משלב נתונים מתחומים אחרים כדי לשפר את יכולתו של המודל בכתיבה, משחקי תפקידים ומשימות כלליות אחרות. באופן ספציפי, הנתונים נוצרים והמודל מכוונן באופן הבא:

נתוני הנמקה: נבחרות הנחיות הנמקה ומסלולי נימוק נוצרים על ידי ביצוע דגימת דחייה מנקודת המחסום שהוזכרה לעיל RL (DeepSeek-R1 שלב 1). בשלב הקודם, נכללו רק נתונים שניתן להעריך באמצעות תגמולים מבוססי כללים. עם זאת, בשלב זה, מערך הנתונים הורחב על ידי הכללת נתונים נוספים, שחלקם נוצרו באמצעות מודל תגמול, והתשובות האמיתיות נשפטו על ידי הזנת תחזיות המודל לתוך DeepSeek-V3 (DeepSeek V3 בתור שופט). בנוסף, מכיוון שפלט הדגם לפעמים מבלבל וקשה לקריאה, סוננו שרשראות מחשבה בשפה מעורבת, פסקאות ארוכות ובלוקי קוד. עבור כל הנחיה, נדגמו מספר תגובות ורק התשובות הנכונות (Best-of-N) נשמרו. בסך הכל נאספו כ-600,000 דגימות הכשרה הקשורות להיגיון.
נתונים שאינם מנמקים: כגון כתיבה, שאלות עובדתיות, מודעות עצמית ותרגום, השתמשו בתהליך DeepSeek-V3 ועשו שימוש חוזר בחלק ממערכי הנתונים של ה-SFT של DeepSeek-V3. עבור כמה משימות שאינן מנמקות, DeepSeek-V3 נקרא כדי ליצור CoTs פוטנציאליים לפני תשובה לשאלה. עם זאת, עבור שאילתות פשוטות כגון "שלום", לא מסופקת שרשרת מחשבות בתגובה. בסופו של דבר נאספו סה"כ כ-200,000 דגימות הכשרה שאינן מנמקות.

3.3.4 SFT & RL עבור כל התרחישים (שלב 3)

שני סבבים של כוונון עדין בסך הכל בוצעו כ-800,000 דגימות נבחרות ב-DeepSeek-V3-Base תוך שימוש בשני מערכי הנתונים שהוזכרו לעיל (Reasoning ו-Non-Reasoning).

כדי ליישר עוד יותר את המודל עם העדפות אנושיות, הכותבים יישמו שלב שני של RL, שמטרתו לשפר את התועלת וחוסר המזיקות של המודל תוך חידוד יכולות ההגיון שלו. באופן ספציפי, המודל הוכשר עם שילוב של אותות תגמול והפצות מיידיות מגוונות.

לנתוני Reasoning, מתבצעת מעקב אחר המתודולוגיה המתוארת ב-DeepSeek-R1-Zero, תוך שימוש במנגנון תגמול מבוסס כללים כדי להנחות את למידת המודל בתחומי מתמטיקה, תכנות והיגיון לוגי.
עבור נתונים כלליים, מודל התגמול משמש כדי ללכוד העדפות אנושיות במצבים מורכבים ועדינים. נעשה שימוש באסטרטגיה דומה של צמדי העדפות והפצות הנחיות אימון המבוססות על תהליך DeepSeek-V3.
מבחינת התועלת, רק הסיכום הסופי נחשב, מה שמבטיח שההערכה מתמקדת במעשיות וברלוונטיות של התגובה למשתמש תוך מזעור הפרעה לתהליך הנימוק הבסיסי.
באשר לאי-מזיקה, כל התגובה של המודל מוערכת באופן מקיף, כולל תהליך הנמקה וסיכום, כדי לזהות ולחסל כל סיכונים פוטנציאליים, הטיות או תוכן מזיק שעלולים להתעורר במהלך תהליך היצירה.
בסופו של דבר, על ידי שילוב אותות תגמול וגיוון הפצת נתונים, ניתן להכשיר מודל שמתעדף גם תועלת וגם חוסר מזיק, תוך שהוא גם מצטיין ב-Reasoning.

3.3.5 זיקוק (שלב 4)

על מנת לצייד דגם קטן ויעיל יותר עם יכולת הנמקה של DeepSeek-R1, המחברים כוונו ישירות את דגמי הקוד הפתוח Qwen ו- LLaMA באמצעות 800,000 הדגימות שנבחרו ב-DeepSeek-R1-Stage-1. התוצאות מראות ששיטת זיקוק ישיר זו משפרת משמעותית את יכולת החשיבה של מודלים קטנים. המודלים הבסיסיים שבהם משתמשים המחברים כוללים Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B ו-Llama-3.3-70B-Instruct. Llama-3.3 נבחר בגלל יכולת ההיגיון שלו טובה במעט מ-Llama-3.1.

עבור מודל הזיקוק, המחבר משתמש רק ב-SFT ואינו כולל את שלב ה-RL. למרות שהכנסת RL יכולה לשפר מאוד את ביצועי המודל, המטרה העיקרית של המחבר כאן היא להדגים את היעילות של טכנולוגיית הזיקוק, והחקירה של שלב ה-RL נותרה למחקרים הבאים.

נ.ב: בנוסף, ניתן למעשה להשתמש ב-DeepSeek-R1 הסופי כדי ליצור את הנתונים לעיל ולשחזר את 800,000 הנתונים המשמשים לזיקוק, והמודל המזוקק עשוי להשפיע טוב יותר; עם זאת, המחיר הוא שצריך לשחזר את הנתונים.

פרשנות נייר DeepSeek R1 ונקודות טכניות מרכזיות

1 רקע