Bildiri-DeepSeek-R1: Takviyeli Öğrenme Yoluyla LLM'lerde Muhakeme Yeteneğinin Teşvik Edilmesi
Özet Bu makale DeepSeek'nin birinci nesil muhakeme modellerini tanıtmaktadır: DeepSeek-R1-Zero ve DeepSeek-R1. Denetimli ince ayar (SFT) olmadan büyük ölçekli takviyeli öğrenme (RL) yoluyla eğitilen DeepSeek-R1-Zero, dikkate değer muhakeme yetenekleri sergilemektedir. RL sayesinde doğal olarak güçlü muhakeme davranışları geliştirir. Ancak, zayıf okunabilirlik ve dil karışımı gibi zorluklarla karşı karşıyadır. Bu sorunları ele almak ve muhakeme performansını artırmak için DeepSeek-R1 geliştirilmiştir...