Dzisiaj podzielimy się DeepSeek R1, Tytuł: DeepSeek-R1: Stymulowanie rozwoju zdolności rozumowania na studiach LLM poprzez uczenie się przez wzmacnianie: Stymulowanie rozwoju zdolności rozumowania na studiach LLM poprzez uczenie się przez wzmacnianie.
W artykule przedstawiono pierwszą generację modeli wnioskowania DeepSeek, DeepSeek-R1-Zero oraz DeepSeek-R1Model DeepSeek-R1-Zero został wytrenowany poprzez uczenie się przez wzmacnianie na dużą skalę (RL) bez nadzorowanego dostrajania (SFT) jako początkowy krok, co pokazuje potencjał RL i lepsze możliwości rozumowania przynosi. Poprzez uczenie się wzmacniające, DeepSeek-R1-Zero naturalnie wyłonił się z wieloma potężnymi i interesującymi zachowaniami rozumowaniaAby jeszcze bardziej zoptymalizować niektóre problemy z R1-Zero (niejasności językowe, ulepszona zdolność generalizacji), wydali DeepSeek-R1, który łączy w sobie wieloetapowe szkolenie i dostrajanie danych z zimnego startu przed nauką wzmacniania. DeepSeek-R1 osiągnął porównywalną wydajność w zadaniu rozumowania z OpenAI-01-1217. Aby wesprzeć społeczność badawczą, mają otwarte źródło DeepSeek-R1-Zero, DeepSeek-R1 i sześć gęstych modeli (1,5B, 7B, 8B, 14B, 32B, 70B) wydestylowanych z DeepSeek-R1, które są oparte na Qwen i Llama.
Charakterystykę tej metody można podsumować następująco:
- Uczenie przez wzmacnianie jest stosowane bezpośrednio do modelu bazowego, bez konieczności stosowania nadzorowanego dostrajania (SFT) jako kroku początkowego.
- Przedstawiono proces rozwoju DeepSeek-R1, który łączy dwie fazy uczenia się przez wzmacnianie i dwie fazy nadzorowanego dostrajania, aby stworzyć podwaliny pod możliwości rozumowania i nierozumowania modelu.
- Wydajność małych modeli w zadaniach rozumowania ulega poprawie poprzez przeniesienie wzorców rozumowania dużych modeli do małych modeli za pomocą techniki destylacji.
Przegląd
- Tytuł: DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się przez wzmacnianie
- Autorski: DeepSeek-AI
- Github: deepseek R1
Motywacja
- Obecne duże modele językowe (LLM) poczyniły znaczne postępy w zakresie zadań wnioskowania, lecz nadal stoją przed wyzwaniami.
- Potencjał czystego nie zbadano w pełni roli uczenia się przez wzmacnianie (RL) w poprawie zdolności rozumowania osób z tytułem magistra prawa, zwłaszcza bez polegania na nadzorowanych danych.
- Modele trenowane za pomocą RL, takie jak DeepSeek-R1-Zero ma problemy z czytelnością i mieszaniem języków (np. mówienie po chińsku i angielsku) i wymaga dalszych udoskonaleń w celu zwiększenia przyjazności dla użytkownika.
Metody

DeepSeek-R1-Zero: Używa DeepSeek-V3-Base jako modelu bazowego i GRPO (Group Relative Policy Optimization) jako uczenie przez wzmacnianie struktura, bez nadzorowanych danych w celu poprawy wydajności modelu w zakresie wnioskowania.
DeepSeek-R1:
- Zimny start: Gromadzi niewielką ilość wysokiej jakości danych CoT (Chain-of-Thought) i dostraja je DeepSeek-V3-Model podstawowy jako początkowy aktor w uczeniu się przez wzmacnianie.
- Uczenie się przez wzmacnianie zorientowane na rozumowanie: Ten sam zastosowano proces uczenia się przez wzmacnianie, taki jak w przypadku DeepSeek-R1-Zero, ale z naciskiem na poprawę zdolności rozumowania modelu w takich obszarach jak kodowanie, matematyka, nauka i rozumowanie logiczne. Wprowadzono nagrody za spójność językową, aby złagodzić problem mieszania się języków, który występuje w CoT.
- Próbkowanie odrzutu i nadzorowane dostrajanie: Wykorzystuje zbieżny punkt kontrolny uczenia się przez wzmacnianie, aby zbieraj dane z nadzorowanego dostrajania (SFT) do dalszego szkolenia.
- Uczenie się przez wzmacnianie dla wszystkich scenariuszy: wdraża fazę uczenia się przez wzmacnianie drugiego poziomu, której celem jest poprawa pomocność i nieszkodliwość modelu, przy jednoczesnej optymalizacji jego zdolności rozumowania.
- Destylacja wiedzy: Dostraja modele open source Qwen i Llama bezpośrednio przy użyciu 800 tys. próbek wybranych przez DeepSeek-R1.
Szczegółowe metody i procedury:

DeepSeek-R1-Zero: Uczenie przez wzmacnianie dla modeli bazowych
- Algorytm uczenia się przez wzmacnianie: Wykorzystuje algorytm optymalizacji względnej polityki grupy (GRPO), który nie wymaga krytyk model, szacuje linię bazową na podstawie wyników grupowych i obniża koszty szkolenia.
- Modelowanie nagród: Używa system nagród oparty na zasadach, w tym

- nagroda za dokładność: Ocenia, czy odpowiedź jest poprawna, np. poprawność wyniku końcowego odpowiedź na zadanie matematyczne, informacja zwrotna od kompilatora dotycząca problemów z kodem.
- Format nagrody: Zachęca model do umieść proces myślenia pomiędzy
oraz
Tagi.
Szablon szkolenia: Szablon zawierający oraz
Tagi są zaprojektowane do pokieruj modelem tak, aby najpierw wyprowadził proces myślenia, a następnie ostateczną odpowiedź.

- Proces samoewolucyjny: Zaprezentowano DeepSeek-R1-Zero samorozwojową charakterystykę podczas szkolenia i był w stanie samodzielnie uczyć się bardziej złożonych strategii rozumowania, takich jak refleksja i eksploracja wielu ścieżek rozwiązywania problemów.

DeepSeek-R1: Uczenie przez wzmacnianie połączone z zimnym startem

- Zimny start: Aby rozwiązać DeepSeek-R1-Zero problem czytelności, DeepSeek-R1 najpierw zbiera niewielką ilość wysokiej jakości dane CoT i dostraja model DeepSeek-V3-Base do pełnić rolę początkowego aktora w uczeniu się przez wzmacnianieDane zimnego startu zawiera tagi podsumowujące i nieprzyjazne odpowiedzi są filtrowane.
- Metoda: 1) Wybierz wysokiej jakości dane Long COT. 2) Dodaj tagi.
- Zalety: 1) Zoptymalizowana czytelność (rozwiązanie problemu wielojęzyczności w R1-Zero lub problemu formatu Markdown). 2) Starannie dobrane dane preferowane przez użytkownika mogą w dalszym ciągu zwiększać wydajność w R1-Zero.
- Pytanie: Dlaczego rozwiązywać problem czytelności? Czy nie można zrobić tego lepiej bez jego rozwiązywania (np. skracając długość wyjścia i wnioskowanie bardziej efektywnie)?
- RL zorientowany na rozumowanie: Na podstawie modelu zimnego startu, proces uczenia się przez wzmacnianie podobny do Zastosowano DeepSeek-R1-Zero, skupiając się na poprawie zdolności modelu w takich zadaniach jak kodowanie, matematyka, rozumowanie naukowe i logiczneAby rozwiązać problem języków mieszanych (rozumowanie wielojęzyczne), nagrody za spójność językową są wprowadzane.
- Pytanie: W jaki sposób trenuje się zadania i zbiory danych wymagające rozumowania naukowego i logicznego?
- Próbkowanie odrzutów i SFT: Po zbieżności wzmacniającego uczenia się kierowanego wnioskowaniem uzyskany punkt kontrolny jest wykorzystywany do próbkowanie odrzucenia w celu wygenerowania nowych danych SFT, które są łączone z danymi z DeepSeek-V3 w celu rozszerzenia możliwości modelu w zakresie pisania, odgrywania ról i zadań ogólnych.
- Zamiar:
- Faza ta rozpoczyna się po proces uczenia się wzmacniającego zorientowanego na wnioskowanie (RL) zbiega się.
- Głównym celem jest zbieraj dane z nadzorowanego dostrajania (SFT) do wykorzystania w kolejnych rundach szkoleniowych.
- W przeciwieństwie do początkowych danych z zimnego startu, które skupiają się wyłącznie na wnioskowaniu, ta faza ma na celu rozszerzyć możliwości modelu obejmujące pisanie, odgrywanie ról i inne zadania ogólnego przeznaczenia, a nie tylko wnioskowanie.
- Zbieranie danych – dane wnioskowania:
- Metoda: Użyj punktów kontrolnych uzyskanych w fazie RL zorientowanej na wnioskowanie, aby wygenerować trajektorie wnioskowania poprzez próbkowanie odrzucenia.
- Rozszerzenie zbioru danych: W przeciwieństwie do poprzedniej fazy RL, która wykorzystywała wyłącznie dane o nagrodach oparte na regułach, tutaj wprowadzono dane o nagrodach nieoparte na regułach. W niektórych przypadkach do określenia odpowiedzi używany jest generatywny model nagrody (DeepSeek-V3).
- Filtrowanie danych: Aby zapewnić jakość i czytelność, dane wyjściowe są filtrowane w celu usunięcia:
- łańcuchy myślowe zawierające mieszane języki
- długie akapity
- bloki kodu
- Pobieranie próbek i selekcja: Dla każdego monitu wygenerowano wiele odpowiedzi. Tylko „poprawna” odpowiedź została zachowana dla zestawu danych.
- Rozmiar zbioru danych: Około 600 000 próbek szkoleniowych związanych z wnioskowaniem zostały zebrane w ten sposób.
- Zbieranie danych – dane niewnioskowe:
- Zakres: pisanie, odpowiadanie na pytania oparte na faktach (QA), samoświadomość i tłumaczenie.
- W artykule wspomniano o wykorzystaniu Proces DeepSeek-V3 i ponowne wykorzystanie części zestawu danych SFT DeepSeek-V3 aby poradzić sobie z tymi zadaniami niebędącymi wnioskowaniem. O 200 000 niezależnych od wnioskowania próbek zostały zebrane. (Uwaga: Szczegóły dotyczące gromadzenia danych niebędących danymi wnioskowymi opisano szczegółowo w rozdziale 2.3.4)
- Wykorzystanie zebranych danych:
- Zebrane dane dotyczące rozumowania i nierozumowania (łącznie około 800 000 próbek – 600 000 próbek rozumowania + 200 000 próbek nierozumowania) zostały następnie wykorzystane do dostroić model DeepSeek-V3-Base dla dwóch epokTen dostrojony model został następnie wykorzystany w końcowej fazie RL opisanej w rozdziale 2.3.4.
- Podsumowanie Ten krok wykorzystuje możliwości wnioskowania nauczyłem się poprzez RL, aby wygenerować zróżnicowany i wysokiej jakości zbiór danych SFT. Ten zbiór danych wzmacnia możliwości wnioskowania, a także rozszerza ogólne możliwości model szkolenia w fazie ostatecznego dopasowania i doskonalenia.
- Zamiar:
- Uczenie się przez wzmacnianie dla wszystkich scenariuszy: Aby jeszcze bardziej dostosować ludzkie preferencje, wdrożono drugą fazę uczenia się przez wzmacnianie, która ma na celu zwiększenie przydatności i nieszkodliwości modelu.
- Dane wnioskowania: np. matematyka, kod, wnioskowanie logiczne lub nadzorowane metodami bazy reguł.
- Dane ogólne: modele nagród są nadal używane do dostarczania informacji o preferencjach dla złożonych i subtelnych scenariuszy. Modele trenowane z danymi parami są również szacowane.
- Przydatność: koncentracja wyłącznie na końcowych wynikach podsumowujących, co ogranicza zakłócenia w procesie wnioskowania.
- Nieszkodliwość: nadzoruj całą reakcję, aby zminimalizować ryzyko.
Destylacja modelowa (Destylacja):
- Aby uzyskać bardziej wydajny model małej inferencji, artykuł destyluje zdolność inferencji DeepSeek-R1 do modeli open source serii Qwen i Llama. Proces destylacji używa wyłącznie nadzorowanego dostrajania (SFT) i nie wykorzystuje etapu uczenia się przez wzmacnianie.
Wnioski
DeepSeek-R1-Zero:Pokazuje potencjał czyste uczenie się wzmacniające w motywowaniu zdolności wnioskowania LLM i może osiągnąć wysoką wydajność bez polegania na nadzorowanych danych.


- Moment „aha”: Piękno uczenia się przez wzmacnianie (moment oświecenia modelu, w którym przeznacza więcej czasu na myślenie o problemie, ucząc się ponownej oceny (podejście początkowe)
- Długość wyjściowa nadal rośnie (czas myślenia nadal rośnie)
- Dokładność stale się poprawia (obliczenie dokładności na podstawie próby 16 odpowiedzi)

- DeepSeek-R1:Dalsze zwiększenie wydajności modelu poprzez połączenie danych z zimnego startu i iteracyjnego dostrajania uczenia się przez wzmacnianie, osiągnięcie poziomu porównywalnego z OpenAI-01-1217 w przypadku różnych zadań.

- Destylacja wiedzy:Używając DeepSeek-R1 jako modelu nauczyciela, wygenerowano 800 tys. próbek szkoleniowych i dopracowano kilka małych, gęstych modeli. Wyniki pokazują, że to metoda destylacji może znacznie poprawić zdolność wnioskowania małe modele.
Ograniczenie
- Ograniczenie 1: Ogólna zdolność DeepSeek-R1 wymaga poprawy. Układ DeepSeek-R1 nadal ustępuje układowi DeepSeek-V3 w takich zadaniach, jak wywoływanie funkcji, dialogi wieloetapowe, złożone odgrywanie ról i generowanie danych w formacie JSON.
- Ograniczenie 2: Problem mieszania języków. W urządzeniu DeepSeek-R1 może wystąpić problem mieszania języków podczas przetwarzania zapytań w językach innych niż chiński i angielski, na przykład podczas rozumowania i odpowiadania w języku angielskim.
- Ograniczenie 3: Szybka reakcja. DeepSeek-R1 jest wrażliwy na słowa podpowiedzi, a mała liczba podpowiedzi zmniejszy jego wydajność.
- Ograniczenie 4: Ograniczone zastosowanie w zadaniach inżynierii oprogramowania. Ze względu na długi czas oceny, uczenie maszynowe na dużą skalę nie zostało w pełni zastosowane w zadaniach inżynierii oprogramowania, a DeepSeek-R1 wykazał się ograniczoną poprawą w stosunku do DeepSeek-V3 w testach porównawczych inżynierii oprogramowania.