מודל ההסקה 32B משתמש רק ב-1/8 מהנתונים והוא קשור ל-DeepSeek-R1 באותו גודל!
זה עתה, מוסדות כמו סטנפורד, UC ברקלי ואוניברסיטת וושינגטון פרסמו יחד מודל הסקה ברמת SOTA, OpenThinker-32B, וגם בקוד פתוח של עד 114 אלף נתוני אימון.

דף הבית של פרויקט OpenThinker:
גילוי צוות: באמצעות מערך נתונים באיכות גבוהה בקנה מידה גדול עם הערות מאומתות DeepSeek-R1 (מבוסס על זיקוק R1), ניתן לאמן מודל מסקנות של SOTA.
השיטה הספציפית היא לשנות את קנה המידה של הנתונים, לאמת את תהליך ההסקה, ולהרחיב את המודל.
ה-OpenThinker-32B שהתקבל עלה על דגמי ה-s1 וה-s1.1 של Li Fei-Fei במבחנים מרובים במתמטיקה, קידוד ומדעים, והיה קרוב ל-R1-Distill-32B.
ראוי להזכיר שבהשוואה ל-R1-Distill-32B, שהשתמש ב-800,000 נתונים (כולל דגימות של 600,000 מסקנות), OpenThinker-32B השתמש רק ב-114,000 נתונים כדי להשיג כמעט את אותן תוצאות מצוינות.

בנוסף, OpenThinker-32 גם פרסם את כל משקלי המודל, מערכי הנתונים, קוד יצירת הנתונים וקוד ההדרכה!

איסוף נתונים
החוקרים הכשירו את OpenThinker-32B באמצעות אותו מערך נתונים של OpenThinker-114k כפי שהם אימנו בעבר את OpenThinker-7B.
הם השתמשו במודל DeepSeek-R1 כדי לאסוף את תהליכי החשיבה ולענות על ניסיונות עבור קבוצה שנבחרה בקפידה של 173,000 שאלות. הנתונים הגולמיים הללו פורסמו לאחר מכן בתור מערך הנתונים של OpenThoughts-Unverified-173k.
השלב האחרון בתהליך הוא לסנן את דגימות הנתונים המתאימות אם תהליך ההיגיון לא מצליח לעבור את האימות.
האיור הבא מציג חזותית את התהליך כולו.
צוות המחקר מזין תחילה נתוני מקור או הנחיות לשאלות, שיכולות להגיע מתחומים ופלטפורמות שונות, כגון BAAI/TACO, DeepMind, הגשות של Python וכו', המכסים היבטים שונים כגון קוד, פאזלים, מדע ומתמטיקה.
התשומות המגוונות הללו מועברות לאחר מכן למודול עיבוד הליבה, DeepSeek-R1, שם הנתונים מנותחים ומעובדים. השאלות מחולקות לשלוש קטגוריות: שאלות מדעיות, מתמטיקה וחידות וקוד.
חלק מהתוצאות אינן דורשות אימות ועשויות להיות ניתוחים פשוטים או פלטים ישירים. עבור תוכן מסוים הדורש אימות מעמיק, נעשה שימוש במודל שפה גדול (LLM) כדי לשפוט אותו בצורה דומה ל-GT (Ground Truth). אם מדובר בקוד, הקוד מבוצע ומבוצעות בדיקות יחידה על מנת לוודא את נכונותו ויעילותו.
לבסוף, ניתן לשלב את התוצאות מכיוונים שונים ליצירת חשיבה פתוחה ופתרונות מקיפים יותר.

צוות המחקר עדכן את מערך הנתונים הסופי של OpenThoughts-114k עם תצורה הנקראת "מטא נתונים" המכילה כמה עמודות נוספות המשמשות לבניית מערך הנתונים:
- בְּעָיָה
- פתרון_אמת_קרקע
- test_cases (קוד בלבד)
- starter_code (קוד בלבד)
- DeepSeek_reasoning
- DeepSeek_solution
- תְחוּם
- מָקוֹר
מטא נתונים נוספים אלו יקלו על השימוש במערך נתונים זה בתרחישים חדשים, כגון סינון נתונים, החלפת תחום, בדיקות אימות ושינוי תבנית תהליך ההסקה.
מטא נתונים נוספים אלה יקלו על השימוש במערך הנתונים הזה, וניתן לעשות זאת באמצעות שורת קוד אחת בלבד, כגון סינון, שינוי הדומיין, בדיקת האימות ושינוי תבנית מעקב ההסקות.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
צוות המחקר אומר שהם מצפים לראות את הקהילה ממנפת את השאלות הללו ואת התשובות הסטנדרטיות למחקר על למידת חיזוק (RL) במודל OpenThinker. DeepScaleR כבר הוכיח שגישה זו עובדת טוב במיוחד בקנה מידה קטן יותר.
אימות
כדי להגיע למערך הנתונים הסופי של OpenThoughts-114k, צוות המחקר אימת את התשובות וחיסל תגובות שגויות.
כפי שמוצג בטבלה למטה, שמירה על מסקנות שאינן עוברות אימות עלולה לפגוע בביצועים, אם כי המודל הלא מאומת עדיין מתפקד היטב בהשוואה למודלים האחרים של 32B.
תפקיד האימות הוא לשמור על האיכות של הערות R1 תוך הרחבת הגיוון והגודל של מערך הנחיות ההדרכה. מצד שני, נתונים לא מאומתים ניתנים להרחבה ביתר קלות ולכן גם כדאי לחקור אותם יותר.

עבור בעיות קוד, אנו משלימים את האימות של תהליך ההסקה על ידי אימות ניסיונות תשובה מול מקרי בדיקה קיימים.
בהשראת האתגרים העומדים בפניהם במהלך ביצוע קוד, הטמענו מסגרת לביצוע קוד ב-Curator המאפשרת למשתמשים לבצע קוד בקנה מידה, בבטחה, ולאמת אותו מול הפלט הצפוי.
לבעיות מתמטיות, צוות המחקר השתמש בשופט LLM (Large Language Model) לאימות, שמקבל גם את התשובה הסטנדרטית וגם את ניסיון הפתרון DeepSeek-R1.
נמצא ששימוש במעריך LLM ליצירת נתונים במקום במנוע הניתוח המחמיר יותר (Math-Verify) הביא לקצב נתונים אפקטיבי גבוה יותר ואיפשר אימון של מודלים במורד הזרם עם ביצועים טובים יותר.

הַדְרָכָה
צוות המחקר השתמש ב-LLaMa-Factory כדי לכוונן את Qwen2.5-32B-Instruct שלוש פעמים במערך הנתונים של OpenThoughts-114k עם אורך הקשר של 16k. את תצורת ההדרכה המלאה ניתן למצוא ב-GitHub.
OpenThinker-32B הוכשר במשך 90 שעות באמצעות ארבעה צמתים 8xH100 P5 על אשכול AWS SageMaker, עבור סך של 2,880 H100-שעות.
בינתיים, OpenThinker-32B-Unverified התאמן במשך 30 שעות במחשב העל של Leonardo באמצעות 96 צמתים 4xA100 (64GB לכל GPU), צבר 11,520 שעות A100.
הַעֲרָכָה
צוות המחקר השתמש בספריית הערכת הקוד הפתוח Evalchemy כדי להעריך את כל המודלים.
עבור AIME24 ו-AIME25, הם חישבו את הדיוק על ידי ממוצע תוצאות של חמש ריצות. תצורת ההערכה השתמשה בפרמטר טמפרטורה של 0.7, הגבילה את תגובת המודל ל-32,768 אסימונים, לא הוסיפה שום מערכת או מילות הנחיה נוספות של משתמש, ולא השתמשה באסטרטגיות פענוח מיוחדות (כגון כפיית תקציב).
כאשר הושק פרויקט OpenThoughts, הם שמו למטרה ליצור מודל נתונים פתוח עם ביצועים שיכולים להתאים ל-DeepSeek-R1-Distill-Qwen-32B.
כעת הפער הזה כמעט בוטל.
לבסוף, צוות המחקר נרגש מההתקדמות המהירה שעשתה הקהילה בבניית מודלים של הסקת נתונים פתוחים במהלך השבועות האחרונים, ומצפה להמשיך להתקדם בהתבסס על התובנות של זה.
מהדורת הקוד הפתוח של OpenThinker-32B מוכיחה שסינרגיה בין נתונים, אימות וגודל מודל הם המפתח לשיפור יכולות ההסקה.
תוצאה זו לא רק מקדמת את הפיתוח של מודלים להסקת קוד פתוח, אלא גם מספקת משאבים והשראה יקרי ערך לכל קהילת הבינה המלאכותית.