Genel - Deepseek R1

Bildiri-DeepSeek-R1: Takviyeli Öğrenme Yoluyla LLM'lerde Muhakeme Yeteneğinin Teşvik Edilmesi

Tarafındandeepseeker Ocak 29, 2025Ocak 29, 2025

Özet Bu makale DeepSeek'nin birinci nesil muhakeme modellerini tanıtmaktadır: DeepSeek-R1-Zero ve DeepSeek-R1. Denetimli ince ayar (SFT) olmadan büyük ölçekli takviyeli öğrenme (RL) yoluyla eğitilen DeepSeek-R1-Zero, dikkate değer muhakeme yetenekleri sergilemektedir. RL sayesinde doğal olarak güçlü muhakeme davranışları geliştirir. Ancak, zayıf okunabilirlik ve dil karışımı gibi zorluklarla karşı karşıyadır. Bu sorunları ele almak ve muhakeme performansını artırmak için DeepSeek-R1 geliştirilmiştir...