היום אני רוצה לשתף מאמר מ-DeepSeek, שכותרתו DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
מאמר זה מציג את DeepSeekMath 7B, שהוכשר מראש על DeepSeek-Coder-Base-v1.5 7B מבוסס על אוסף של 120B אסימונים הקשורים למתמטיקה, שפה טבעית ונתוני קוד.
המודל השיג ציון מדהים של 51.7% במדדי MATH ברמה תחרותית מבלי להסתמך על ערכות כלים חיצוניות וטכניקות הצבעה, והתקרב לרמת הביצועים של Gemini-Ultra ו-GPT-4.
יכולת החשיבה המתמטית של DeepSeekMath 7B מיוחסת לשני גורמים מרכזיים: ראשית, באמצעות צינור בחירת נתונים שתוכנן בקפידה, נתונים איכותיים הקשורים למתמטיקה נכרים באופן איטרטיבי מנתוני אינטרנט זמינים לציבור.
שנית, אופטימיזציה של מדיניות יחסית קבוצתית (GRPO) היא הוצג, שהוא גרסה של אופטימיזציה של מדיניות פרוקסימלית (PPO) שיכולה לשפר את יכולת החשיבה המתמטית תוך אופטימיזציה של השימוש בזיכרון של PPO.
- תכונות השיטה מסוכמות כדלקמן:קורפוס טרום אימון מתמטי איכותי נבנה, וצינור שתוכנן בקפידה שימש לכריית נתונים מתמטיים באיכות גבוהה מ-Common Crawl.
- אלגוריתם GRPO הוצע, מה שמפחית את המשאבים הנדרשים לאימון ומשפר את יכולת החשיבה המתמטית של המודל. 3) ביצועים חדישים היה הושג במבחני נימוק מתמטי מרובים.
סקירה כללית
כּוֹתֶרֶת: DeepSeekMath: לדחוף את הגבולות של נימוק מתמטי במודלים של שפה פתוחה
כתובת אתר: לחץ כאן
מחברים: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
קוד: לחץ כאן
מוֹטִיבָצִיָה
חשיבה מתמטית מציבה אתגר משמעותי למודלים של שפה בשל המורכבות והאופי המובנה של המתמטיקה. הדגמים המתקדמים ביותר, כגון GPT-4 ו-Gemini-Ultra, הם חזקים אך אינם זמינים לציבור. לכן, יש מקום משמעותי לשיפור בביצועים של מודלים של קוד פתוח.
מורכבות ומבנה: חשיבה מתמטית מציבה אתגר משמעותי למודלים של שפה בשל המורכבות והאופי המובנה של המתמטיקה.
פוטנציאל של נתונים ציבוריים: נתוני אינטרנט זמינים לציבור עשויים להכיל מידע מתמטי עשיר שטרם נכרה והשתמשו בו.
שיטות
איסוף נתונים: קורפוס DeepSeekMath של אסימונים של 120B נבנה על ידי איסוף נתוני אינטרנט באיכות גבוהה הקשורים למתמטיקה מ-Common Crawl דרך צינור איטרטיבי.
אימון דוגמניות: הקורפוס שימש לאימון מקדים על גבי DeepSeek-Coder-Base-v1.5 7B, ויושם האלגוריתם של כוונון עדין של הוראה מתמטית ומיטוב המדיניות היחסית של הקבוצה (GRPO).
אלגוריתם GRPO: GRPO הוא אלגוריתם למידת חיזוק משופר שמסיר את מודל ה-Critic ב-PPO ומעריך את קו הבסיס מהציון הקבוצתי, ובכך מקטין משמעותית את משאבי ההדרכה.
שיטות ונהלים מפורטים:
איסוף ועיבוד נתונים:

בניית DeepSeekMath Corpus: שימוש במסווג מבוסס fastText, לחלץ 120B אסימונים הקשורים למתמטיקה מ-Common Crawl לבניית קורפוס מאומן מראש בקנה מידה גדול ואיכותי, DeepSeekMath Corpus.
סינון נתונים איטרטיבי: נעשה שימוש באסטרטגיה איטרטיבית, שימוש ב-OpenWebMath כנתוני זרע כדי לאמן מסווג ראשוני, ולאחר מכן שימוש במסווג זה כדי לכרות דוגמאות חיוביות יותר מ-Common Crawl, המובאות באופן ידני כדי לייעל באופן רציף את ביצועי המסווג.
תכונות רב לשוניות: DeepSeekMath Corpus מכיל נתונים רב לשוניים, מה שמשפר את ביצועי המודל על מדדי מתמטיקה סיניים.
עיבוד ניקוי זיהום: דה-עיבוד זיהום מתבצע על נתוני האימון כדי למנוע חפיפה עם רף הבדיקה.
אימון מקדים:
אתחול מודל מבוסס קוד: אתחול באמצעות ה DeepSeek-Coder-Base-v1.5 7B המודל נמצא יעיל יותר מאתחול מ-LLM כללי.
הרכב נתונים לפני אימון: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, קוד Github 20%, 10% Common Crawl נתוני שפה טבעית.
פרמטרים של אימון מקדים: נעשה שימוש באופטימיזציית AdamW, עם קצב למידה של 4.2e-4, גודל אצווה של 10 מיליון אסימונים והדרכה של 500B אסימונים.
כוונון עדין של הוראות:
בנו מערך נתונים לכוונון עדין של הוראות: בנו מערך נתונים לכוונון עדין של הוראה מתמטית המכיל 776K דוגמאות, המכסה מגוון תחומים מתמטיים ורמות קושי, כולל CoT, PoT ופורמטים משולבים בכלים לפתרון שלבים.
פרמטרי אימון: גודל אצווה 256, קצב למידה 5e-5, אימון ל-500 צעדים.
למידת חיזוק - אופטימיזציה של מדיניות יחסית קבוצתית (GRPO):
הצע אלגוריתם GRPO: הצע א אלגוריתם גרסת PPO GRPO, המונע את הצורך במודל ביקורת על ידי שימוש בציונים קבוצתיים להערכת קו הבסיס, ובכך מפחית את משאבי ההדרכה.
פונקציה אובייקטיבית: GRPO מייעל את מודל המדיניות על ידי מקסום פונקציה אובייקטיבית לוקח בחשבון את היתרון היחסי של תפוקות בתוך הקבוצה ומוסיף ישירות את סטיית ה-KL כמונח רגוליזציה.
חישוב יתרון: GRPO מחשב את היתרון דרך תגמולים יחסיים בתוך קבוצה, הימנעות מהשוואות בין קבוצות והתאמה טובה יותר לאופי ההשוואתי של מודל התגמול.
תומך הן במעקב אחר התוצאות והן בתהליכים: GRPO יכול לתמוך הן במעקב אחר התוצאות והן בתהליכים, ולפקח בצורה יעילה יותר על המדיניות על ידי מתן תגמולים בסוף כל שלב מסקנות.
איטרטיבי RL: משתמש ב- אסטרטגיית RL איטרטיבית ליצור מערך הדרכה חדש המבוסס על תוצאות הדגימה של מודל המדיניות, אימון רציף של מודל התגמול הישן, ולהשתמש במודל התגמול החדש כדי לעדכן את מודל המדיניות.
נתוני אימון: משתמש בבעיות פורמט CoT הקשורות ל-GSM8K ו-MATH בנתוני SFT, בערך בעיות של 144K.
פרמטרי אימון: קצב הלמידה של מודל המדיניות הוא 1e-6, מקדם KL הוא 0.04, נדגמים 64 תפוקות לכל בעיה, האורך המרבי הוא 1024 וגודל אצווה ההדרכה הוא 1024.
מַסְקָנָה

מסקנה 1:DeepSeekMath 7B מתעלה על כל דגמי הקוד הפתוח ביכולת החשיבה המתמטית. במבחן ה-MATH התחרותי, DeepSeekMath 7B השיג דיוק של 51.7%, שקרוב לרמת הביצועים של Gemini-Ultra ו-GPT-4.
מסקנה 2:נתוני אימון מקדים ואלגוריתמי GRPO מתוכננים היטב הם המפתח להצלחת המודל. השילוב של קורפוס מתמטי איכותי ואלגוריתמי GRPO מאפשר למודל להשיג הישגים משמעותיים בביצועים במשימות חשיבה מתמטית.
מסקנה 3:אימון קוד עוזר לשפר את יכולת החשיבה המתמטית. הוספת נתוני קוד לשלב ההכשרה יכולה לשפר את יכולתו של המודל לפתור בעיות מתמטיות, גם עם ובלי כלים.
מסקנה 4: שימושיות מוגבלת של נתוני arXiv: בניגוד לאמונות קודמות, נתוני arXiv נמצאו לעזר מוגבל בשיפור החשיבה המתמטית.
הַגבָּלָה
יכולות גיאומטריה והוכחה חלשות יחסית: למרות ש-DeepSeekMath מצטיין בהיגיון כמותי, יכולותיו בגיאומטריה ובהוכחה עדיין נחותות ממודלים של קוד סגור. ייתכן שהסיבה לכך היא בחירת הנתונים המוטה בשלבי ההכשרה המקדימה והכיוונון העדין.
חולשה בקיבולת דגימה קטנה: DeepSeekMath נחות מ-GPT-4 במונחים של למידת מדגם קטן, אשר עשויה לנבוע מהמגבלה של גודל המודל.
יש צורך בשיטות לימוד חיזוק יעילות יותר: למרות ששיטות למידת החיזוק המוצעות במאמר יעילות, עדיין יש מקום לשיפור, למשל, כיצד לעשות שימוש יעיל יותר במשוב ממודל התגמול וכיצד להתמודד עם אותות תגמול רועשים.
פרטים
חיזוק למידה חקר וניתוח
סקירה כללית:
הקדמה של אופטימיזציה של מדיניות יחסית קבוצתית (GRPO): המאמר מציע אלגוריתם למידת חיזוק חדש, GRPO, כגרסה של אופטימיזציה של מדיניות פרוקסימלית (PPO). התכונה העיקרית של GRPO היא שזה נוטש את מודל ה-Critic הנפוץ ב-PPO ומעריך את קו הבסיס באמצעות ציונים קבוצתיים, ובכך מפחית מאוד את המשאבים החישוביים הנדרשים לאימון.
הדגמת יעילות GRPO: המאמר מדגים באופן ניסיוני ש-GRPO יכול שפר ביעילות את הביצועים של מודלים לכוונון עדין של פקודות, כולל משימות מתמטיות בתוך התחום והן מחוץ לתחום.
מסגרת מאוחדת לשיטות למידת חיזוק: המאמר מציע מסגרת אחידה להבנת שיטות למידת חיזוקים שונות, כגון כוונון עדין של דגימת דחייה (RFT), אופטימיזציה של העדפות ישירה (DPO), PPO ו-GRPO. המסגרת מתייחסת לשיטות אלו כאל טכניקות למידת חיזוק ישירות או פשוטות.
חקר מעמיק של המרכיבים של למידת חיזוק: המאמר חוקר לעומק אלמנטים מרכזיים של למידת חיזוק, כגון הדרכה מקוונת והדרכה לא מקוונת, פיקוח על תוצאות ופיקוח תהליכים, למידת חיזוק בסיבוב יחיד ולמידת חיזוק איטרטיבי, באמצעות ניסויים מפורטים, ומסכם כיוונים פוטנציאליים לשיפור האפקטיביות של למידת חיזוק.
אלגוריתם GRPO (Group Relative Policy Optimization).

מגבלות של PPO: PPO הוא אלגוריתם למידת חיזוק נפוץ, אך הוא דורש אימון מודל ביקורת נוסף להעריך את פונקציית הערך, אשר כופה עומס חישובי וזיכרון נוסף. בנוסף, בתרחיש LLM, אימון מודל ביקורת יכול להיות מסובך מכיוון שהוא דורש הערכה הפלט של כל אסימון.
רעיון ליבה של GRPO: הרעיון המרכזי של GRPO הוא לעשות לנטוש את מודל ה-Critic ובמקום זאת להשתמש בציון הממוצע של קבוצת תפוקות עבור אותה בעיה כמו קו בסיס. ניתן להשתמש בקו בסיס זה להערכת פונקציית היתרון ולאופטימיזציה של מדיניות. גישה זו מפחיתה משמעותית את מורכבות האימון.
חישוב פונקציית יתרון: GRPO מחשב את פונקציית היתרון לפי חישוב הדירוג היחסי של כל פלט באותה קבוצה של פלטים, במקום להסתמך על פונקציית ערך נפרדת כמו ב-PPO.
עונש סטייה של KL: GRPO אינו מוסיף עונש של סטיית KL לתגמול כמו PPO, אלא מוסיף את סטיית KL בין מודל המדיניות למודל הייחוס ישירות לפונקציית ההפסד. כך נמנע חישוב פונקציית היתרון המורכב.
הרעיון המרכזי של GRPO
אינו דורש מבקר (פונקציית ערך): GRPO מונע את הצורך בפונקציית ערך ו משתמש בציון בתוך הקבוצה כדי להעריך את קו הבסיס, ובכך להפחית את משאבי ההדרכה.
יתרון יחסי תוך קבוצתי: עבור כל בעיה q, GRPO דוגמת קבוצה של תפוקות {o(1), o(2), …, o(G)} מהמדיניות הישנה π(θold) ולאחר מכן מייעלת את מודל המדיניות על ידי מיקסום המשוואה הבאה כפונקציית המטרה.

ספציפית:

המפתח כאן הוא Â(i,t), המייצג את היתרון ומחושב לפי ה תגמול יחסי של הפלט התוך-קבוצתי, במקום להסתמך על פונקציית ערך נפרדת כמו ב-PPO.

הפונקציה האובייקטיבית גם מוסיפה ישירות KL divergence כמונח רגוליזציה לשלוט בגודל של עדכוני מדיניות

והתיישר עם אופי ההשוואה של מודל התגמול: GRPO משתמש בתגמול התוך-קבוצתי היחסי כדי לחשב את היתרון, התואם יותר לאופי מודל התגמול, שלרוב מאומן על סמך השוואה זוגית.
כיצד ניתן לעצב את מודל התגמול של GRPO (עיין ב-DeepSeek R1)?
תכונות:
פרס פורמט: מאלץ את הדור של ארוך מיטת תינוק תוצאות, שיכולות לדחוף את המודל ליצור תהליכי מסקנות ולשפר את השפעת ההסקה של המודל.
תגמול דיוק: מתמטיקה יכולה להשתמש בתוצאה הסופית, וקוד יכול להשתמש במשוב מהדר.
היתרונות של GRPO
פחות טביעת זיכרון: אין צורך במודל Critic, מה שמפחית את דרישות הזיכרון.
אימון יעיל יותר: חישוב באמצעות יתרון יחסי תוך-קבוצתי מפשט את תהליך ההכשרה.
תואם יותר לאופי דגמי התגמול: משפר את יציבות ויעילות האימון.
RL Unified Paradigm Summary
פרדיגמה מאוחדת מוצעת
המחברים מציעים פרדיגמה מאוחדת להבנת שיטות אימון שונות כגון SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO וכו'. רכיבי מפתח RL: מרכיבי המפתח של המסגרת המאוחדת כוללים: מקורות נתונים, פונקציות תגמול ואלגוריתמים.
- מקור נתונים: הכוונה היא לנתונים המשמשים להדרכה, שניתן להפיק מתיוג ידני, מודלים של SFT או מודלים של מדיניות בזמן אמת.
- פונקציית תגמול: זה מתייחס לפונקציה המשמשת להערכת איכות הפלט, שיכולה להיות כלל או מודל.
- אַלגוֹרִיתְם: הכוונה היא לשיטה המשמשת לעיבוד הנתונים ואות התגמול ולעדכון פרמטרי המודל.
ניתוח שיטות שונות על בסיס פרדיגמה מאוחדת
טבלה 10 מסכמת את הדמיון וההבדלים בין SFT, RFT, DPO, Online RFT, PPO ו-GRPO במונחים של מקורות נתונים, פונקציות תגמול ומקדמי שיפוע.
שִׁיטָה | נתוני אימון | פונקציית תגמול | מקדם שיפוע | שיטת אימון | יתרונות/תכונות | תרחישים ישימים |
SFT | נתוני SFT עם תווית ידנית | נבחר באופן ידני (תגמול מרומז) | תוקן ל-1 | למידה מפוקחת | פשוט ויציב, תלוי בנתונים מסומנים באיכות גבוהה | אימון מודל בסיסי, משימת יישור ראשונית |
RFT | בעיה במערך SFT + פלט לדוגמה של דגם SFT | מבוסס על נכונות התשובה (שיפוט כלל) | 0 (שגוי) או 1 (נכון) | אופטימיזציה של מדיניות לא מקוונת | חישוב יעיל, שימוש ישיר במשוב כללים | משימות מתמטיות/לוגיות עם כללים ברורים |
DPO | בעיה במערך SFT + פלט דגם ל | תיוג העדפות אנושיות או השוואת כללים | מבוסס על חישוב הסתברות העדפה (למשל, מודל בראדלי-טרי) | לימוד השוואה | נמנע ממודלים מפורשים של תגמולים, תוך אופטימיזציה ישירה של העדפות | משימות יישור העדפות אנושיות (למשל, יצירת דיאלוג) |
RFT מקוון | דגימת מודל מדיניות בזמן אמת צמדי בעיה-פלט | מבוסס על נכונות התשובה (שיפוט כלל) | 0 (שגוי) או 1 (נכון) | אופטימיזציה של מדיניות מקוונת | עדכון דינמי של מדיניות עם אופטימיזציה של משוב בזמן אמת | תרחישים הדורשים אינטראקציה מקוונת (למשל, בינה מלאכותית של משחק) |
PPO | בעיה במערך SFT + פלט דגימת מודל מדיניות | מודל תגמול (RM) הוכשר | פונקציית דומיננטיות (מבוסס על הערכת תגמול) | שיטת שיפוע מדיניות | יעיל ויציב, תומך באופטימיזציה רב-שלבית | משימות מורכבות (למשל יצירת טקסט, בקרת רובוט) |
GRPO | בעיה במערך נתונים של SFT + פלט דגימת מודל מדיניות | מודל תגמול (RM) הוכשר | תגמול יחסי תוך קבוצתי (השוואה מנורמלת) | אופטימיזציה של מדיניות קבוצתית | צמצם את שונות התגמול ושפר את ההשוואה תוך קבוצתית | משימות עם שונות גבוהה (למשל יצירת טקסט ארוך) |
תצפיות על מקורות נתונים

אימון מקוון לעומת לא מקוון: אימון מקוון מתייחס לשימוש בפלט של מודל המדיניות בזמן אמת כנתוני אימון, בעוד שהדרכה לא מקוונת מתייחסת לשימוש בפלט של מודל קבוע (כגון מודל SFT) כנתוני אימון. תוצאות ניסויים מראות זאת בדרך כלל הדרכה מקוונת טובה יותר מאימון לא מקוון.
פיקוח תוצאות לעומת פיקוח תהליכים: פיקוח תוצאות מתייחס רק לתגמול השלב הסופי של הפלט, בעוד שפיקוח תהליך מתייחס לתגמול כל שלב בתהליך החשיבה. תוצאות ניסויים מראות זאת פיקוח תהליכים יעיל יותר במשימות מורכבות.
למידה של פרק בודד לעומת חיזוק איטרטיבי: למידת חיזוק של פרק בודד מתייחס לאופטימיזציה של אסטרטגיה אחת, בעוד שלמידת חיזוק איטרטיבית מתייחסת לעדכון מתמשך של מודל התגמול לאחר אופטימיזציות מרובות של אסטרטגיה. תוצאות ניסויים מראות זאת למידת חיזוק איטרטיבית יכולה לשפר משמעותית את הביצועים, במיוחד באיטרציה הראשונה.
תצפית על מקדמי שיפוע
מבוסס כללים לעומת מבוסס מודל: כלל מתייחס לקביעת התגמול על סמך נכונות התשובה, ומודל מתייחס לאימון מודל תגמול לניקוד.
הבדל במקדמי שיפוע: ההבדל העיקרי בין GRPO ל RFT מקוון הוא ש-GRPO מתאים את מקדמי השיפוע שלו בהתבסס על ערכי התגמול שמסופקים על ידי מודל התגמול, בעוד ש-RFT מקוון לא.
יתרונות GRPO: ניסויים מראים זאת GRPO עדיפה על RFT מקוונת, המדגימה את היעילות של שינוי הסימן של מקדמי השיפוע. GRPO+PS עדיפה על GRPO+OS, ומדגימה את היתרונות של שימוש במקדמי גרדיאנט עדינים ומודעים לשלבים.
יעילות RL וכיוונים לשיפור
מדוע RL יעיל?

תוצאות ניסוי: RL משפר את ביצועי Maj@K אך לא Pass@K.
הֶסבֵּר: RL משפר את הביצועים הכוללים של המודל על ידי הפיכת התפלגות התפוקה לחזקה יותר, כלומר, היא משפרת את ההסתברות לתשובות נכונות ב-TopK, במקום לשפר את היכולת הבסיסית של המודל.
כיצד ניתן להשיג RL יעיל יותר?
בהתבסס על הפרדיגמה המאוחדת, המחברים מציעים כיוונים עתידיים לשיפור RL בשלושה היבטים: מקורות נתונים, אלגוריתמים ופונקציות תגמול.
- מקורות נתונים:
- חקור בעיות מעבר לשלב SFT.
- השתמש באסטרטגיות דגימה (פענוח) מתקדמות יותר, כגון שיטות מבוססות חיפוש עצים.
- השתמש בטכניקות מסקנות יעילות כדי לשפר את יעילות החקירה של מודל המדיניות.
- אַלגוֹרִיתְם:
- חקור אלגוריתמי למידת חיזוק שעמידים יותר לאותות תגמול רועשים.
- למד שיטות יישור מסוג חלש לחזקה.
- פונקציית תגמול:
- שפר את יכולת ההכללה של מודל התגמול לטיפול בבעיות מחוץ להפצה ובפלטים מפוענחים מתקדמים.
- שיקפו את חוסר הוודאות של מודל התגמול והשתמשו בו כגשר לחיבור מודלים של תגמול חלשים ואלגוריתמי למידה חלשים עד חזקים.
- בנה ביעילות מודלים של תגמול תהליכים באיכות גבוהה כדי לספק אותות אימון עדינים לתהליך ההסקה.
תַקצִיר
DeepSeekMath שיפרה משמעותית את יכולתם של מודלים של שפות קוד פתוח בחשיבה מתמטית על ידי בניית קורפוס מתמטי בקנה מידה גדול והצעת אלגוריתם למידה חיזוק חדש. דגשים במאמר זה הם
- הבנייה והאימות של קורפוס DeepSeekMath, קורפוס מתמטי רב-לשוני בקנה מידה גדול ואיכותי.
- אלגוריתם למידת חיזוק יעיל, GRPO, מוצע להפחתת השימוש בזיכרון תוך שיפור יכולת החשיבה המתמטית של המודל.
- ההשפעה של אימון קוד על יכולת החשיבה המתמטית נידונה לעומק, ונמצא שלנתוני arXiv יש השפעה מוגבלת. הערך של DeepSeekMath:
- הוא מספק לקהילת הקוד הפתוח מודל חשיבה מתמטי רב עוצמה ומקדם פיתוח של AI מתמטי.
- הוא מספק ניסיון ושיטות יקרי ערך לבניית קורפוסים מתמטיים והכשרת מודלים של חשיבה מתמטית.
- אלגוריתם ה-GRPO המוצע מספק רעיונות חדשים לאימון למידה חיזוק בתחומים אחרים.