חדשות מרעננות! חוקר DeepSeek חושף באינטרנט: אימון R1 נמשך רק שבועיים עד שלושה, והתפתחות עוצמתית של R1 אפס נצפתה במהלך חופשת ראש השנה הסיני
רק עכשיו שמנו לב לאותו חוקר DeepSeek דאיה גואו השיב לשאלות של גולשים ברשת לגבי DeepSeek R1 ותוכניות החברה לעתיד. אנחנו יכולים רק לומר ש-DeepSeek R1 הוא רק ההתחלה, והמחקר הפנימי עדיין מתקדם במהירות. חוקרי DeepSeek אפילו לא לקחו הפסקה במהלך חופשת ראש השנה הסיני, והם עבדו ללא לאות לקידום המחקר. ל-DeepSeek יש כמה מהלכים גדולים בקרוב
זה העניין: ב-1 בפברואר פרסם דייה גואו ציוץ שחשף את הדבר שהכי ריגש אותו במהלך חופשת ראש השנה הסיני: לחזות ב "צמיחה מתמשכת" של עקומת הביצועים של R1-אפס דֶגֶם, ולהרגיש את כוח רב עוצמה של למידת חיזוק (RL)!
חוקר הבינה המלאכותית של Deepseek Daya Guo מדבר עם גולשים ברשת
כעת אעזור לך לשחזר את השיחה של Daya Guo עם גולשים ברשת:
Netizen A @PseudoProphet: "ביג שוט, אני רוצה לשאול כמה זמן השיפור המתמשך הזה בביצועים יימשך. האם זה עדיין בשלבים מוקדמים? האם זה מרגיש כאילו דגם ה-RL של DeepSeek רק מתחיל, כמו GPT-2 במודלים של שפה? או שזה הגיע לשלב בוגר יותר כמו GPT-3.5, והוא עומד לפגוש צוואר בקבוק?"
זו שאלה חדה מאוד, המתייחסת ישירות לפוטנציאל של טכנולוגיית RL של DeepSeek! גם התגובה של Daya Guo כנה מאוד:
Daya Guo: "אני חושב שאנחנו עדיין בשלב מוקדם מאוד, ויש עוד דרך ארוכה לעבור בתחום של RL. אבל אני מאמין שנראה התקדמות משמעותית השנה".
הדגש את נקודות המפתח! ”מוקדם מאוד“, "דרך ארוכה לחקור", "התקדמות משמעותית השנה"! מילות מפתח אלו מלאות במידע. המשמעות היא ש-DeepSeek מאמינים שעדיין יש להם הרבה מקום לשיפור בתחום ה-RL, והתוצאות הנוכחיות של R1 עשויות להיות רק קצה הקרחון, כך שהעתיד מבטיח!
מיד לאחר מכן, משתמש רשת אחר @kaush_trip (Cheeku Tripathi) שאל שאלה מקצועית יותר שנכנסת היישר ללב יכולות הדגם:
משתמש B @kaush_trip: "בהתבסס על הביצועים של R1-Zero, איך אתה מעריך אם באמת יש לדגם יכולת הכללה, או אם זה סתם משנן מעברי מדינה ותגמולים?"
השאלה הזו מאוד עניינית! אחרי הכל, מודלים רבים נראים חזקים מאוד, אבל במציאות הם רק 'למידה רוטינה' מנתוני האימון, והם ייכשלו בסביבה אחרת. האם DeepSeek R1 באמת עומד לעלות?
Daya Guo: "אנו משתמשים במבחן ביצוע עבור דומיינים שאינם מכוסים בהנחיית RL כדי להעריך את יכולת ההכללה. כרגע נראה שיש לו יכולת הכללה".
הביטוי "אזורים שאינם מכוסים בהנחיית RL" הוא המפתח! המשמעות היא ש-DeepSeek לא "מרמה" את ההערכה עם נתוני אימון, אלא נבדק עם תרחישים חדשים שהמודל מעולם לא ראה לפני, מה שיכול לשקף באמת את רמת ההכללה של המודל. השימוש של Daya Guo בניסוח המחמיר "נראה שיש" גם הופך אותו למציאותי יותר ואמין יותר
לאחר מכן, משתמש רשת עם המזהה @teortaxesTex, מעריץ גדול של DeepSeek (ההערה שלו כללה אפילו את המילים "צוות מעודדות לווייתנים DeepSeek"), התחיל עם הדוח הטכני של DeepSeek V3 ושאל שאלה לגבי זמן אימון מודל:
משתמש C @teortaxesTex: "אם זה לא סוד: כמה זמן נמשך אימון RL הפעם? זה מרגיש כאילו כבר היה לך R1 או לפחות R1-Zero כבר ב-10 בדצמבר, כי הדוח הטכני של V3 מזכיר שדגם V2.5 השתמש בזיקוק ידע R1, והציון של V2.5-1210 זהה ל-V2.5-1210 הדגם הנוכחי. האם זה המשך לאימון הזה?"
לגולש הזה יש כוחות התבוננות מדהימים! הוא הצליח לחלץ כל כך הרבה פרטים מהדוח הטכני. Daya Guo גם הסביר בסבלנות את התהליך האיטרטיבי של המודל:
Daya Guo: "הפרמטרים R1-Zero ו-R1 של 660B התחילו לפעול רק לאחר שחרורו של V3, והאימונים ארכו בערך 2-3 שבועות. דגם ה-R1 שהזכרנו קודם (כמו בדוח הטכני של V3) הוא למעשה R1-Lite או R1-Lite-Zero”.
אז זהו! ה-R1-Zero ו-R1 שאנו רואים כעת הם "גרסאות חדשות ומשודרגות", וסדרות ה-R1-Lite הקודמות הן גרסאות משניות. נראה ש-DeepSeek חזר בשקט ושדרג גרסאות רבות מאחורי הקלעים
בנוגע למהירות האימון, גולשי הרשת @jiayi_pirate (Jiayi Pan) והרשת B @kaush_trip העבירו "חקירת נשמה":
משתמש D @jiayi_pirate: "10,000 צעדים RL ב-3 שבועות, כל שלב התפשטות גרדיאנט (grpo) לוקח ~3 דקות 🤔"
משתמש B @kaush_trip: "אם כל שלב של התפשטות גרדיאנט (grpo) לוקח בערך 3 דקות, זה בערך 5 צעדים לשעה, 120 צעדים ליום, וזה אכן איטי מאוד."
זה חישוב ממש מדוקדק! לפי החישוב של המשתמש ברשת, מהירות האימון של DeepSeek R1 אכן אינה מהירה. זה גם מראה שעלות ההדרכה והשקעת הזמן של דגם RL בעל ביצועים כה גבוהים הם עצומים. "עבודה איטית מייצרת עבודה משובחת" נראה כדרך מתאימה למדי לתאר אימון מודל AI
לבסוף, משתמש רשת בשם @davikrehalt (אנדי ג'יאנג) שאל שאלה מנקודת מבט של יישום חדשני יותר:
משתמש E @davikrehalt: "האם ניסית להשתמש ב-RL כדי לעשות הוכחה רשמית לאיכות הסביבה, במקום רק לענות על שאלות? זה יהיה נהדר אם מודל קוד פתוח יוכל לזכות במדליית זהב ב-IMO (אולימפיאדה מתמטית בינלאומית) השנה! (ועוד תקוות!)"
הוכחה רשמית! מדליית זהב של IMO! המשתמש הזה ברשת הוא די שאפתני! עם זאת, יישום AI לתחום ההארדקור של הוכחה מתמטית הוא אכן המגמה העתידית. תשובתו של Daya Guo שוב מפתיעה:
Daya Guo: "אנחנו גם מנסים ליישם את R1 על סביבות הוכחה רשמיות כמו Lean. אנו מקווים לשחרר דגמים טובים יותר לקהילה בקרוב."
מדבריו של Daya Guo, נראה שהם כבר התקדמו בתחום, וייתכן שיצאו דגמים מרשימים אף יותר בעתיד!
לסיום
ניתן לזקק שלושה אותות מפתח מתגובתו של Daya Guo:
מיצוב טכני: RL עדיין בשלביה הראשונים, ושיפורי הביצועים רחוקים מלהגיע לגבולותיהם;
היגיון אימות: יכולת הכללה לבדיקות חוצות דומיינים, דחיית "ספקולציות זיכרון
גבולות יישומים: ממודלים של שפה ועד הוכחות מתמטיות, RL צועד לעבר חשיבה מסדר גבוה