הסוד מאחורי DeepSeek 1 | פרטי DeepSeekMath ו-GRPO
היום אני רוצה לשתף מאמר מ-DeepSeek, שכותרתו DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. מאמר זה מציג את DeepSeekMath 7B, שהוכשר מראש על DeepSeek-Coder-Base-v1.5 7B המבוסס על אוסף של 120B אסימונים הקשורים למתמטיקה, שפה טבעית ונתוני קוד. הדגם השיג ציון מדהים של 51.7% ברמה תחרותית...