Uncategorized

Paper-DeepSeek-R1: Mendorong Kemampuan Penalaran dalam LLM melalui Pembelajaran Penguatan

Olehdeepseeker 29 Januari 202529 Januari 2025

Abstrak Makalah ini memperkenalkan model penalaran generasi pertama DeepSeek: DeepSeek-R1-Nol dan DeepSeek-R1. DeepSeek-R1-Zero, yang dilatih melalui pembelajaran penguatan skala besar (RL) tanpa fine-tuning yang diawasi (SFT), menunjukkan kemampuan penalaran yang luar biasa. Melalui RL, secara alami mengembangkan perilaku penalaran yang kuat. Namun, RL menghadapi tantangan seperti keterbacaan yang buruk dan pencampuran bahasa. Untuk mengatasi masalah ini dan meningkatkan kinerja penalaran, DeepSeek-R1 dikembangkan,...