Uncategorized - Deepseek R1

Paper-DeepSeek-R1: תמריץ יכולת הנמקה בלימודי תואר שני באמצעות למידת חיזוק

עַל יְדֵיdeepseeker 29 בינואר 202529 בינואר 2025

תקציר מאמר זה מציג את דגמי ההיגיון מהדור הראשון של DeepSeek: DeepSeek-R1-Zero ו-DeepSeek-R1. DeepSeek-R1-Zero, מאומן באמצעות למידת חיזוק בקנה מידה גדול (RL) ללא כוונון עדין מפוקח (SFT), מפגין יכולות חשיבה יוצאות דופן. דרך RL, הוא מפתח באופן טבעי התנהגויות חשיבה עוצמתיות. עם זאת, הוא מתמודד עם אתגרים כמו קריאה לקויה וערבוב שפות. כדי לטפל בבעיות אלו ולשפר את ביצועי ההיגיון, פותח DeepSeek-R1,...