تم الكشف عن تقنية DeepSeek-R1: تم تحليل المبادئ الأساسية للورقة وتم الكشف عن مفتاح أداء النموذج الرائد
اليوم سنشارك DeepSeek R1، العنوان: DeepSeek-R1: تحفيز القدرة على التفكير في LLMs عبر التعلم التعزيزي: تحفيز القدرة على التفكير في LLM عبر التعلم التعزيزي. تقدم هذه الورقة الجيل الأول من نماذج التفكير في DeepSeek، DeepSeek-R1-Zero وDeepSeek-R1. تم تدريب نموذج DeepSeek-R1-Zero من خلال التعلم التعزيزي واسع النطاق (RL) دون ضبط دقيق خاضع للإشراف (SFT) كخطوة أولية،...