未分類 - Deepseek R1

未分類

論文-DeepSeek-R1：透過強化學習激勵法學碩士中的推理能力

經過deepseeker 2025年1月29日2025年1月29日

摘要本文介紹了DeepSeek的第一代推理模型：DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero 透過大規模強化學習（RL）訓練，無需監督微調（SFT），展現出卓越的推理能力。透過 RL，它自然而然地發展出強大的推理行為。但它面臨可讀性差、語言混合等挑戰。為了解決這些問題並提高推理性能，我們開發了DeepSeek-R1，…