Tidak Berkategori - Deepseek R1

Paper-DeepSeek-R1: Insentif Keupayaan Penaakulan dalam LLM melalui Pembelajaran Pengukuhan

Olehdeepseeker 29 Januari 202529 Januari 2025

Abstrak Kertas kerja ini memperkenalkan model penaakulan generasi pertama DeepSeek: DeepSeek-R1-Zero dan DeepSeek-R1. DeepSeek-R1-Zero, dilatih melalui pembelajaran tetulang berskala besar (RL) tanpa penyeliaan penalaan halus (SFT), menunjukkan keupayaan penaakulan yang luar biasa. Melalui RL, ia secara semula jadi membangunkan tingkah laku penaakulan yang kuat. Walau bagaimanapun, ia menghadapi cabaran seperti kebolehbacaan yang lemah dan percampuran bahasa. Untuk menangani isu ini dan meningkatkan prestasi penaakulan, DeepSeek-R1 telah dibangunkan,…