Paper-DeepSeek-R1: Anreize für logisches Denken in LLMs durch Reinforcement Learning
Zusammenfassung In diesem Beitrag werden die DeepSeek-Schlussfolgermodelle der ersten Generation vorgestellt: DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, trainiert durch großangelegtes Reinforcement Learning (RL) ohne überwachte Feinabstimmung (SFT), zeigt bemerkenswerte Argumentationsfähigkeiten. Durch RL entwickelt es auf natürliche Weise ein leistungsfähiges Denkverhalten. Allerdings steht es vor Herausforderungen wie schlechter Lesbarkeit und Sprachmischung. Um diese Probleme zu lösen und die Argumentationsleistung zu verbessern, wurde DeepSeek-R1 entwickelt,...