Odkryto technologię DeepSeek-R1: podstawowe zasady artykułu zostały rozbite na części i ujawniono klucz do przełomowej wydajności modelu

Dzisiaj podzielimy się DeepSeek R1, Tytuł: DeepSeek-R1: Stymulowanie rozwoju zdolności rozumowania na studiach LLM poprzez uczenie się przez wzmacnianie: Stymulowanie rozwoju zdolności rozumowania na studiach LLM poprzez uczenie się przez wzmacnianie.

W artykule przedstawiono pierwszą generację modeli wnioskowania DeepSeek, DeepSeek-R1-Zero oraz DeepSeek-R1Model DeepSeek-R1-Zero został wytrenowany poprzez uczenie się przez wzmacnianie na dużą skalę (RL) bez nadzorowanego dostrajania (SFT) jako początkowy krok, co pokazuje potencjał RL i lepsze możliwości rozumowania przynosi. Poprzez uczenie się wzmacniające, DeepSeek-R1-Zero naturalnie wyłonił się z wieloma potężnymi i interesującymi zachowaniami rozumowaniaAby jeszcze bardziej zoptymalizować niektóre problemy z R1-Zero (niejasności językowe, ulepszona zdolność generalizacji), wydali DeepSeek-R1, który łączy w sobie wieloetapowe szkolenie i dostrajanie danych z zimnego startu przed nauką wzmacniania. DeepSeek-R1 osiągnął porównywalną wydajność w zadaniu rozumowania z OpenAI-01-1217. Aby wesprzeć społeczność badawczą, mają otwarte źródło DeepSeek-R1-Zero, DeepSeek-R1 i sześć gęstych modeli (1,5B, 7B, 8B, 14B, 32B, 70B) wydestylowanych z DeepSeek-R1, które są oparte na Qwen i Llama.

Charakterystykę tej metody można podsumować następująco:

Uczenie przez wzmacnianie jest stosowane bezpośrednio do modelu bazowego, bez konieczności stosowania nadzorowanego dostrajania (SFT) jako kroku początkowego.
Przedstawiono proces rozwoju DeepSeek-R1, który łączy dwie fazy uczenia się przez wzmacnianie i dwie fazy nadzorowanego dostrajania, aby stworzyć podwaliny pod możliwości rozumowania i nierozumowania modelu.
Wydajność małych modeli w zadaniach rozumowania ulega poprawie poprzez przeniesienie wzorców rozumowania dużych modeli do małych modeli za pomocą techniki destylacji.

Spis treści

Przegląd

Tytuł: DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się przez wzmacnianie
Autorski: DeepSeek-AI
Github: deepseek R1

Motywacja

Obecne duże modele językowe (LLM) poczyniły znaczne postępy w zakresie zadań wnioskowania, lecz nadal stoją przed wyzwaniami.
Potencjał czystego nie zbadano w pełni roli uczenia się przez wzmacnianie (RL) w poprawie zdolności rozumowania osób z tytułem magistra prawa, zwłaszcza bez polegania na nadzorowanych danych.
Modele trenowane za pomocą RL, takie jak DeepSeek-R1-Zero ma problemy z czytelnością i mieszaniem języków (np. mówienie po chińsku i angielsku) i wymaga dalszych udoskonaleń w celu zwiększenia przyjazności dla użytkownika.

Metody

DeepSeek-R1-Zero: Używa DeepSeek-V3-Base jako modelu bazowego i GRPO (Group Relative Policy Optimization) jako uczenie przez wzmacnianie struktura, bez nadzorowanych danych w celu poprawy wydajności modelu w zakresie wnioskowania.

DeepSeek-R1:

Zimny start: Gromadzi niewielką ilość wysokiej jakości danych CoT (Chain-of-Thought) i dostraja je DeepSeek-V3-Model podstawowy jako początkowy aktor w uczeniu się przez wzmacnianie.
Uczenie się przez wzmacnianie zorientowane na rozumowanie: Ten sam zastosowano proces uczenia się przez wzmacnianie, taki jak w przypadku DeepSeek-R1-Zero, ale z naciskiem na poprawę zdolności rozumowania modelu w takich obszarach jak kodowanie, matematyka, nauka i rozumowanie logiczne. Wprowadzono nagrody za spójność językową, aby złagodzić problem mieszania się języków, który występuje w CoT.
Próbkowanie odrzutu i nadzorowane dostrajanie: Wykorzystuje zbieżny punkt kontrolny uczenia się przez wzmacnianie, aby zbieraj dane z nadzorowanego dostrajania (SFT) do dalszego szkolenia.
Uczenie się przez wzmacnianie dla wszystkich scenariuszy: wdraża fazę uczenia się przez wzmacnianie drugiego poziomu, której celem jest poprawa pomocność i nieszkodliwość modelu, przy jednoczesnej optymalizacji jego zdolności rozumowania.
Destylacja wiedzy: Dostraja modele open source Qwen i Llama bezpośrednio przy użyciu 800 tys. próbek wybranych przez DeepSeek-R1.

Szczegółowe metody i procedury:

DeepSeek-R1-Zero: Uczenie przez wzmacnianie dla modeli bazowych

Algorytm uczenia się przez wzmacnianie: Wykorzystuje algorytm optymalizacji względnej polityki grupy (GRPO), który nie wymaga krytyk model, szacuje linię bazową na podstawie wyników grupowych i obniża koszty szkolenia.
Modelowanie nagród: Używa system nagród oparty na zasadach, w tym

nagroda za dokładność: Ocenia, czy odpowiedź jest poprawna, np. poprawność wyniku końcowego odpowiedź na zadanie matematyczne, informacja zwrotna od kompilatora dotycząca problemów z kodem.
Format nagrody: Zachęca model do umieść proces myślenia pomiędzy oraz Tagi.

Szablon szkolenia: Szablon zawierający oraz Tagi są zaprojektowane do pokieruj modelem tak, aby najpierw wyprowadził proces myślenia, a następnie ostateczną odpowiedź.

Proces samoewolucyjny: Zaprezentowano DeepSeek-R1-Zero samorozwojową charakterystykę podczas szkolenia i był w stanie samodzielnie uczyć się bardziej złożonych strategii rozumowania, takich jak refleksja i eksploracja wielu ścieżek rozwiązywania problemów.

DeepSeek-R1: Uczenie przez wzmacnianie połączone z zimnym startem

Zimny start: Aby rozwiązać DeepSeek-R1-Zero problem czytelności, DeepSeek-R1 najpierw zbiera niewielką ilość wysokiej jakości dane CoT i dostraja model DeepSeek-V3-Base do pełnić rolę początkowego aktora w uczeniu się przez wzmacnianieDane zimnego startu zawiera tagi podsumowujące i nieprzyjazne odpowiedzi są filtrowane.
- Metoda: 1) Wybierz wysokiej jakości dane Long COT. 2) Dodaj tagi.
- Zalety: 1) Zoptymalizowana czytelność (rozwiązanie problemu wielojęzyczności w R1-Zero lub problemu formatu Markdown). 2) Starannie dobrane dane preferowane przez użytkownika mogą w dalszym ciągu zwiększać wydajność w R1-Zero.
- Pytanie: Dlaczego rozwiązywać problem czytelności? Czy nie można zrobić tego lepiej bez jego rozwiązywania (np. skracając długość wyjścia i wnioskowanie bardziej efektywnie)?
RL zorientowany na rozumowanie: Na podstawie modelu zimnego startu, proces uczenia się przez wzmacnianie podobny do Zastosowano DeepSeek-R1-Zero, skupiając się na poprawie zdolności modelu w takich zadaniach jak kodowanie, matematyka, rozumowanie naukowe i logiczneAby rozwiązać problem języków mieszanych (rozumowanie wielojęzyczne), nagrody za spójność językową są wprowadzane.
- Pytanie: W jaki sposób trenuje się zadania i zbiory danych wymagające rozumowania naukowego i logicznego?
Próbkowanie odrzutów i SFT: Po zbieżności wzmacniającego uczenia się kierowanego wnioskowaniem uzyskany punkt kontrolny jest wykorzystywany do próbkowanie odrzucenia w celu wygenerowania nowych danych SFT, które są łączone z danymi z DeepSeek-V3 w celu rozszerzenia możliwości modelu w zakresie pisania, odgrywania ról i zadań ogólnych.
- Zamiar:
  - Faza ta rozpoczyna się po proces uczenia się wzmacniającego zorientowanego na wnioskowanie (RL) zbiega się.
  - Głównym celem jest zbieraj dane z nadzorowanego dostrajania (SFT) do wykorzystania w kolejnych rundach szkoleniowych.
  - W przeciwieństwie do początkowych danych z zimnego startu, które skupiają się wyłącznie na wnioskowaniu, ta faza ma na celu rozszerzyć możliwości modelu obejmujące pisanie, odgrywanie ról i inne zadania ogólnego przeznaczenia, a nie tylko wnioskowanie.
- Zbieranie danych – dane wnioskowania:
  - Metoda: Użyj punktów kontrolnych uzyskanych w fazie RL zorientowanej na wnioskowanie, aby wygenerować trajektorie wnioskowania poprzez próbkowanie odrzucenia.
  - Rozszerzenie zbioru danych: W przeciwieństwie do poprzedniej fazy RL, która wykorzystywała wyłącznie dane o nagrodach oparte na regułach, tutaj wprowadzono dane o nagrodach nieoparte na regułach. W niektórych przypadkach do określenia odpowiedzi używany jest generatywny model nagrody (DeepSeek-V3).
  - Filtrowanie danych: Aby zapewnić jakość i czytelność, dane wyjściowe są filtrowane w celu usunięcia:
    - łańcuchy myślowe zawierające mieszane języki
    - długie akapity
    - bloki kodu
  - Pobieranie próbek i selekcja: Dla każdego monitu wygenerowano wiele odpowiedzi. Tylko „poprawna” odpowiedź została zachowana dla zestawu danych.
  - Rozmiar zbioru danych: Około 600 000 próbek szkoleniowych związanych z wnioskowaniem zostały zebrane w ten sposób.
- Zbieranie danych – dane niewnioskowe:
  - Zakres: pisanie, odpowiadanie na pytania oparte na faktach (QA), samoświadomość i tłumaczenie.
  - W artykule wspomniano o wykorzystaniu Proces DeepSeek-V3 i ponowne wykorzystanie części zestawu danych SFT DeepSeek-V3 aby poradzić sobie z tymi zadaniami niebędącymi wnioskowaniem. O 200 000 niezależnych od wnioskowania próbek zostały zebrane. (Uwaga: Szczegóły dotyczące gromadzenia danych niebędących danymi wnioskowymi opisano szczegółowo w rozdziale 2.3.4)
- Wykorzystanie zebranych danych:
  - Zebrane dane dotyczące rozumowania i nierozumowania (łącznie około 800 000 próbek – 600 000 próbek rozumowania + 200 000 próbek nierozumowania) zostały następnie wykorzystane do dostroić model DeepSeek-V3-Base dla dwóch epokTen dostrojony model został następnie wykorzystany w końcowej fazie RL opisanej w rozdziale 2.3.4.
- Podsumowanie Ten krok wykorzystuje możliwości wnioskowania nauczyłem się poprzez RL, aby wygenerować zróżnicowany i wysokiej jakości zbiór danych SFT. Ten zbiór danych wzmacnia możliwości wnioskowania, a także rozszerza ogólne możliwości model szkolenia w fazie ostatecznego dopasowania i doskonalenia.
Uczenie się przez wzmacnianie dla wszystkich scenariuszy: Aby jeszcze bardziej dostosować ludzkie preferencje, wdrożono drugą fazę uczenia się przez wzmacnianie, która ma na celu zwiększenie przydatności i nieszkodliwości modelu.
- Dane wnioskowania: np. matematyka, kod, wnioskowanie logiczne lub nadzorowane metodami bazy reguł.
- Dane ogólne: modele nagród są nadal używane do dostarczania informacji o preferencjach dla złożonych i subtelnych scenariuszy. Modele trenowane z danymi parami są również szacowane.
- Przydatność: koncentracja wyłącznie na końcowych wynikach podsumowujących, co ogranicza zakłócenia w procesie wnioskowania.
- Nieszkodliwość: nadzoruj całą reakcję, aby zminimalizować ryzyko.

Destylacja modelowa (Destylacja):

Aby uzyskać bardziej wydajny model małej inferencji, artykuł destyluje zdolność inferencji DeepSeek-R1 do modeli open source serii Qwen i Llama. Proces destylacji używa wyłącznie nadzorowanego dostrajania (SFT) i nie wykorzystuje etapu uczenia się przez wzmacnianie.

Wnioski

DeepSeek-R1-Zero:Pokazuje potencjał czyste uczenie się wzmacniające w motywowaniu zdolności wnioskowania LLM i może osiągnąć wysoką wydajność bez polegania na nadzorowanych danych.

Moment „aha”: Piękno uczenia się przez wzmacnianie (moment oświecenia modelu, w którym przeznacza więcej czasu na myślenie o problemie, ucząc się ponownej oceny (podejście początkowe)
Długość wyjściowa nadal rośnie (czas myślenia nadal rośnie)
Dokładność stale się poprawia (obliczenie dokładności na podstawie próby 16 odpowiedzi)

DeepSeek-R1:Dalsze zwiększenie wydajności modelu poprzez połączenie danych z zimnego startu i iteracyjnego dostrajania uczenia się przez wzmacnianie, osiągnięcie poziomu porównywalnego z OpenAI-01-1217 w przypadku różnych zadań.

Destylacja wiedzy:Używając DeepSeek-R1 jako modelu nauczyciela, wygenerowano 800 tys. próbek szkoleniowych i dopracowano kilka małych, gęstych modeli. Wyniki pokazują, że to metoda destylacji może znacznie poprawić zdolność wnioskowania małe modele.

Ograniczenie

Ograniczenie 1: Ogólna zdolność DeepSeek-R1 wymaga poprawy. Układ DeepSeek-R1 nadal ustępuje układowi DeepSeek-V3 w takich zadaniach, jak wywoływanie funkcji, dialogi wieloetapowe, złożone odgrywanie ról i generowanie danych w formacie JSON.
Ograniczenie 2: Problem mieszania języków. W urządzeniu DeepSeek-R1 może wystąpić problem mieszania języków podczas przetwarzania zapytań w językach innych niż chiński i angielski, na przykład podczas rozumowania i odpowiadania w języku angielskim.
Ograniczenie 3: Szybka reakcja. DeepSeek-R1 jest wrażliwy na słowa podpowiedzi, a mała liczba podpowiedzi zmniejszy jego wydajność.
Ograniczenie 4: Ograniczone zastosowanie w zadaniach inżynierii oprogramowania. Ze względu na długi czas oceny, uczenie maszynowe na dużą skalę nie zostało w pełni zastosowane w zadaniach inżynierii oprogramowania, a DeepSeek-R1 wykazał się ograniczoną poprawą w stosunku do DeepSeek-V3 w testach porównawczych inżynierii oprogramowania.

Ujawniono technologię DeepSeek-R1: podstawowe zasady artykułu zostały rozbite na czynniki pierwsze, a klucz do przełomowej wydajności modelu został ujawniony

Przegląd

Motywacja

Metody

Wnioski

Ograniczenie

Dialog a16z z 27-letnim CEO: Agent AI ma ogromny efekt dźwigni, a długoterminowe ceny będą powiązane z kosztami pracy

Kompleksowe porównanie nowo wydanych o3-mini i DeepSeek R1 firmy OpenAI

Ali Qwen2.5-Max wyprzedza DeepSeek-V3! Internauta: Chińska sztuczna inteligencja szybko nadrabia zaległości

Qwen2.5-max kontra DeepSeek R1: Głębokie porównanie modeli: pełna analiza scenariuszy zastosowań

OpenAI o3-mini vs. DeepSeek-R1: Kto jest królem nowej generacji modeli AI?

Google wypuściło jednocześnie trzy nowe modele: Gemini-2.0-Pro jest darmowy, ma znakomite wyniki i zajmuje pierwsze miejsce, a także nadaje się do kodowania i przetwarzania złożonych poleceń!

Dodaj komentarz Anuluj pisanie odpowiedzi

Przegląd

Motywacja

Metody

Wnioski

Ograniczenie

Podobne posty

Dodaj komentarz Anuluj pisanie odpowiedzi