Paper-DeepSeek-R1: תמריץ יכולת הנמקה בלימודי תואר שני באמצעות למידת חיזוק

תקציר מאמר זה מציג את דגמי ההיגיון מהדור הראשון של DeepSeek: DeepSeek-R1-Zero ו-DeepSeek-R1. DeepSeek-R1-Zero, מאומן באמצעות למידת חיזוק בקנה מידה גדול (RL) ללא כוונון עדין מפוקח (SFT), מפגין יכולות חשיבה יוצאות דופן. דרך RL, הוא מפתח באופן טבעי התנהגויות חשיבה עוצמתיות. עם זאת, הוא מתמודד עם אתגרים כמו קריאה לקויה וערבוב שפות. כדי לטפל בבעיות אלו ולשפר את ביצועי ההיגיון, פותח DeepSeek-R1,...