תַקצִיר

מאמר זה מציג את דגמי ההיגיון מהדור הראשון של DeepSeek: DeepSeek-R1-Zero ו-DeepSeek-R1. DeepSeek-R1-Zero, מאומן באמצעות למידת חיזוק בקנה מידה גדול (RL) ללא כוונון עדין מפוקח (SFT), מפגין יכולות חשיבה יוצאות דופן. דרך RL, הוא מפתח באופן טבעי התנהגויות חשיבה עוצמתיות. עם זאת, הוא מתמודד עם אתגרים כמו קריאה לקויה וערבוב שפות. כדי לטפל בבעיות אלו ולשפר את ביצועי החשיבה, פותח DeepSeek-R1, המשלב אימון רב-שלבי ונתוני התחלה קרה לפני RL. DeepSeek-R1 משיג ביצועים דומים ל-OpenAI-o1-1217 במשימות חשיבה. כדי לתמוך במחקר, DeepSeek מציע קוד פתוח בשני הדגמים ושישה דגמים צפופים (1.5B, 7B, 8B, 14B, 32B, 70B) מזוקקים מ-DeepSeek-R1 המבוססים על Qwen ו-Llama.

תרומות מפתח

לאחר אימון: למידת חיזוק בקנה מידה גדול

  • הוחל בהצלחה RL ישירות על דגם הבסיס ללא SFT
  • פיתח את DeepSeek-R1-Zero, המדגים יכולות כמו אימות עצמי והשתקפות
  • מחקר פתוח ראשון המאמת שניתן לתמרץ יכולות חשיבה אך ורק באמצעות RL
  • הוצג צינור עבור DeepSeek-R1 עם שני שלבי RL ושני שלבי SFT

זיקוק: העצמת דגמים קטנים יותר

  • הוכיח שניתן לזקק ביעילות דפוסי חשיבה ממודלים גדולים יותר לקטנים יותר
  • DeepSeek-R1 בקוד פתוח וממשק ה-API שלו לטובת קהילת המחקר
  • כוונון עדין של מספר דגמים צפופים המציגים ביצועי אמת מידה יוצאי דופן
  • מודלים מזוקקים עולים משמעותית על דגמי קוד פתוח קודמים

תוצאות הערכה

משימות הנמקה

  • DeepSeek-R1 משיג 79.8% Pass@1 ב-AIME 2024, ועובר על OpenAI-o1-1217
  • ציון 97.3% ב-MATH-500, ביצועים דומים ל-OpenAI-o1-1217
  • ביצועים ברמת מומחה במשימות תחרות קוד עם דירוג Elo של 2,029 ב-Codeforces

משימות ידע

  • תוצאות יוצאות דופן ב-MMLU (90.8%), MMLU-Pro (84.0%) ו-GPQA Diamond (71.5%)
  • עולה על מודלים אחרים של קוד סגור במשימות חינוכיות
  • ביצועים חזקים במדדים עובדתיים כמו SimpleQA

יכולות כלליות

  • מצטיין בכתיבה יצירתית, מענה לשאלות, עריכה וסיכום
  • שיעור ניצחון של 87.6% ב-AlpacaEval 2.0 ו-92.3% ב-ArenaHard
  • ביצועים חזקים במשימות הבנת הקשר ארוך

עבודה עתידית

הצוות מתכנן להתמקד ב:

  1. שיפור היכולות הכלליות בתחומים כמו קריאת פונקציות ומשחק תפקידים מורכב
  2. טיפול בבעיות ערבוב שפה
  3. שיפור הנדסת הנחיה
  4. שיפור הביצועים במשימות הנדסת תוכנה

מַסְקָנָה

DeepSeek-R1 מייצג התקדמות משמעותית ביכולות החשיבה בינה מלאכותית באמצעות למידת חיזוק. ההצלחה של הדגם הראשי והן של הגרסאות המזוקקות שלו מדגימה את הפוטנציאל של גישה זו לפיתוח מערכות בינה מלאכותית מסוגלות יותר. שחרור הקוד הפתוח של מודלים אלו יתרום למחקר ופיתוח נוסף בתחום.

פוסטים דומים

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *