Najnowsze wiadomości! Badacz DeepSeek ujawnia online:Trening R1 trwał zaledwie dwa do trzech tygodni, a potężną ewolucję R1 zero zaobserwowano podczas chińskiego Nowego Roku
Właśnie zauważyliśmy, że badacz DeepSeek Daja Guo odpowiedział na pytania internautów dotyczące DeepSeek R1 i planów firmy na przyszłość. Możemy tylko powiedzieć, że DeepSeek R1 to dopiero początek, a wewnętrzne badania wciąż szybko postępują. Naukowcy DeepSeek nie zrobili sobie nawet przerwy podczas chińskiego Nowego Roku i nieustannie pracują nad rozwojem badań. DeepSeek ma przed sobą kilka dużych ruchów
Rzecz w tym, że 1 lutego Daya Guo opublikował na Twitterze wpis, w którym ujawnił, co najbardziej go ekscytuje podczas chińskiego Nowego Roku: bycie świadkiem „ciągły wzrost” krzywej wydajności R1-Zero modeli czując potężna siła uczenie przez wzmacnianie (RL)!
Daya Guo, badaczka sztucznej inteligencji Deepseek, rozmawia z internautami
Pomogę ci teraz odtworzyć rozmowę Daya Guo z internautami:
Internauta A @PseudoProphet: „Wielki strzelcu, chciałbym zapytać, jak długo potrwa ta ciągła poprawa wydajności. Czy to wciąż wczesna faza? Czy wygląda na to, że model RL DeepSeek dopiero się rozkręca, jak GPT-2 w modelach językowych? Czy też osiągnął bardziej dojrzały etap, jak GPT-3.5, i jest na skraju wąskiego gardła?”
To bardzo ostre pytanie, które bezpośrednio odnosi się do potencjału technologii RL DeepSeek! Odpowiedź Daya Guo jest również bardzo szczera:
Daya Guo: „Myślę, że jesteśmy jeszcze na bardzo wczesnym etapie i wciąż mamy długą drogę do przebycia w dziedzinie RL. Ale wierzę, że w tym roku zobaczymy znaczący postęp”.
Podkreśl najważniejsze punkty! „Bardzo wcześnie”, „długa droga do odkrycia”, „znaczny postęp w tym roku”! Te słowa kluczowe są pełne informacji. Oznacza to, że DeepSeek uważa, że nadal mają wiele do zrobienia w dziedzinie RL, a obecne wyniki R1 mogą być tylko wierzchołkiem góry lodowej, więc przyszłość jest obiecująca!
Zaraz potem inny internauta @kaush_trip (Cheeku Tripathi) zadał bardziej profesjonalne pytanie, które trafia w sedno możliwości modelki:
Użytkownik B @kaush_trip: „Na podstawie wyników R1-Zero, jak oceniasz, czy model ten rzeczywiście ma zdolność generalizacji, czy po prostu zapamiętuje zmiany stanu i nagrody?”
To pytanie jest bardzo na temat! W końcu wiele modeli wydaje się bardzo potężnych, ale w rzeczywistości są one po prostu „uczeniem się na pamięć” z danych treningowych i zawiodą w innym środowisku. Czy DeepSeek R1 jest naprawdę na poziomie?
Daya Guo: „Używamy benchmarku dla domen nieobjętych RL prompt, aby ocenić zdolność generalizacji. Obecnie wydaje się, że ma zdolność generalizacji”.
Fraza „obszary nieobjęte RL prompt” jest kluczowa! Oznacza to, że DeepSeek nie „oszukuje” oceny danymi treningowymi, ale jest testowany za pomocą nowych scenariuszy, które model nigdy nie widział wcześniej, co może naprawdę odzwierciedlać poziom uogólnienia modelu. Użycie przez Daya Guo rygorystycznego sformułowania „wydaje się mieć” sprawia, że jest on bardziej realistyczny i wiarygodny
Następnie internauta o identyfikatorze @teortaxesTex, wielki fan DeepSeek (jego komentarz zawierał nawet słowa „zespół cheerleaderek wielorybów DeepSeek”), zaczął od raportu technicznego DeepSeek V3 i zadał pytanie na temat czas szkolenia modelu:
Użytkownik C @teortaxesTex: „Jeśli to nie tajemnica: ile czasu zajęło tym razem szkolenie RL? Wygląda na to, że już 10 grudnia miałeś R1 lub przynajmniej R1-Zero, ponieważ raport techniczny V3 wspomina, że model V2.5 używał destylacji wiedzy R1, a wynik V2.5-1210 jest taki sam jak w obecnym modelu. Czy to jest kontynuacja tamtego szkolenia?”
Ten internauta ma niesamowite zdolności obserwacji! Potrafił wyciągnąć tak wiele szczegółów z raportu technicznego. Daya Guo cierpliwie wyjaśnił również iteracyjny proces modelu:
Daya Guo: „Parametry R1-Zero i R1 660B zaczęły działać dopiero po wydaniu V3, a trening trwał około 2-3 tygodni. Model R1, o którym wspominaliśmy wcześniej (taki jak w raporcie technicznym V3), to w rzeczywistości R1-Lite lub R1-Lite-Zero”.
No i to wszystko! R1-Zero i R1, które teraz widzimy, to „nowe i ulepszone wersje”, a poprzednia seria R1-Lite to wersje podrzędne. Wygląda na to, że DeepSeek cicho iterował i ulepszył wiele wersji za kulisami
Jeśli chodzi o szybkość treningu, internauci @jiayi_pirate (Jiayi Pan) i internauta B @kaush_trip przekazali „przesłuchanie duszy”:
Użytkownik D @jiayi_pirate: „10 000 kroków RL w ciągu 3 tygodni, każdy krok propagacji gradientu (grpo) zajmuje ~3 minuty 🤔”
Użytkownik B @kaush_trip: „Jeśli każdy krok propagacji gradientu (grpo) trwa około 3 minuty, to daje to około 5 kroków na godzinę, 120 kroków na dzień, co jest rzeczywiście bardzo wolno”.
To naprawdę drobiazgowe obliczenia! Według obliczeń internauty, prędkość szkolenia DeepSeek R1 rzeczywiście nie jest duża. Pokazuje to również, że koszt szkolenia i inwestycja czasu tak wydajnego modelu RL są ogromne. „Powolna praca daje dobrą pracę” wydaje się być całkiem odpowiednim sposobem na opisanie szkolenia modelu AI
Na koniec internauta o nicku @davikrehalt (Andy Jiang) zadał pytanie z perspektywy bardziej nowatorskiej aplikacji:
Użytkownik E @davikrehalt: „Czy próbowałeś użyć RL, aby to zrobić?” formalny dowód środowiska, zamiast po prostu odpowiadać na pytania? Byłoby wspaniale, gdyby model open-source mógł zdobyć złoty medal na IMO (Międzynarodowej Olimpiadzie Matematycznej) w tym roku! (I więcej nadziei!)”
Formalny dowód! Złoty medal IMO! Ten internauta jest bardzo ambitny! Jednak stosowanie AI w hardcorowym polu dowodu matematycznego jest rzeczywiście przyszłym trendem. Odpowiedź Daya Guo jest po raz kolejny zaskakująca:
Daya Guo: „Próbujemy również zastosować R1 w środowiskach formalnych dowodów, takich jak Lean. Mamy nadzieję, że wkrótce udostępnimy społeczności lepsze modele”.
Ze słów Daya Guo wynika, że poczynili już postępy na tym polu, a w przyszłości mogą pojawić się jeszcze bardziej imponujące modele!
Na zakończenie
Z odpowiedzi Daya Guo można wywnioskować trzy kluczowe sygnały:
Pozycjonowanie techniczne: RL jest wciąż na wczesnym etapie rozwoju, a możliwości udoskonalenia wydajności są jeszcze dalekie od osiągnięcia swoich granic;
Logika weryfikacji: zdolność generalizacji do testowania międzydomenowego, odrzucanie „spekulacji pamięci”
Granice zastosowań: od modeli językowych po dowody matematyczne, RL zmierza w kierunku rozumowania wyższego rzędu