Nejnovější zprávy! Výzkumník DeepSeek odhaluje online: Trénink R1 trval pouze dva až tři týdny a během svátku čínského Nového roku byl pozorován silný vývoj nuly R1

Právě jsme si všimli výzkumníka DeepSeek Daya Guo odpověděl na dotazy uživatelů o DeepSeek R1 a plánech společnosti do budoucna. Můžeme jen říci, že DeepSeek R1 je jen začátek a interní výzkum stále rychle postupuje kupředu. Výzkumníci DeepSeek si ani nedali pauzu během svátku čínského Nového roku a neúnavně pracovali na pokroku ve výzkumu. DeepSeek čeká několik velkých změn

Tady je věc: 1. února zveřejnil Daya Guo tweet odhalující věc, která ho nejvíce vzrušila během svátku čínského Nového roku: byl svědkem "nepřetržitý růst" výkonnostní křivky R1-nula modela pocit mocná síla posilovací učení (RL)!

Deepseek AI výzkumník Daya Guo mluví s netizeny

Nyní vám pomůžu reprodukovat rozhovor Daya Guo s netizeny:

Netizen A @PseudoProphet: „Skvěle, chci se zeptat, jak dlouho toto neustálé zlepšování výkonu vydrží. Je to stále v raných fázích? Máte pocit, že RL model DeepSeek teprve začíná, jako GPT-2 v jazykových modelech? Nebo dosáhl vyspělejšího stádia jako GPT-3.5 a chystá se narazit na úzké hrdlo?

To je velmi ostrá otázka, která přímo souvisí s potenciálem RL technologie DeepSeek! Odpověď Daya Guo je také velmi upřímná:

Daya Guo: „Myslím, že jsme stále ve velmi rané fázi a v oblasti RL je před námi ještě dlouhá cesta. Ale věřím, že letos uvidíme významný pokrok.“

Zdůrazněte klíčové body! “Velmi brzy”, “Dlouhá cesta k prozkoumání”, “Letošní významný pokrok”! Tato klíčová slova jsou plná informací. To znamená, že DeepSeek věří, že v oblasti RL mají stále velký prostor pro zlepšení a současné výsledky R1 mohou být jen špičkou ledovce, takže budoucnost je slibná!

Ihned poté položil další netizen @kaush_trip (Cheeku Tripathi) profesionálnější otázku, která jde přímo k jádru schopností modelu:

Uživatel B @kaush_trip: „Jak na základě výkonu R1-Zero hodnotíte, zda model skutečně má? schopnost generalizace, nebo zda jen zapamatuje si přechody stavu a odměny?"

Tato otázka je velmi věcná! Koneckonců, mnoho modelů se zdá být velmi výkonných, ale ve skutečnosti se jen „učí nazpaměť“ z tréninkových dat a v jiném prostředí selžou. Je DeepSeek R1 opravdu na špici?

Daya Guo: „K vyhodnocení schopnosti zobecnění používáme benchmark pro domény, na které se nevztahuje výzva RL. V současnosti se zdá, že má schopnost generalizace.“

Fráze „oblasti nepokryté výzvou RL“ je klíčová! To znamená, že DeepSeek „nepodvádí“ vyhodnocení tréninkovými daty, ale testuje se pomocí nových scénářů, které model nikdy neviděl dříve, což může skutečně odrážet úroveň zobecnění modelu. Díky tomu, že Daya Guo použila přísnou formulaci „zdá se, že má“, je také realističtější a důvěryhodnější

Dále netizen s ID @teortaxesTex, velký fanoušek DeepSeek (jeho komentář dokonce obsahoval slova „DeepSeek velrybí cheerleading team“), začal s technickou zprávou DeepSeek V3 a položil otázku ohledně modelový tréninkový čas:

Uživatel C @teortaxesTex: „Pokud to není tajemství: jak dlouho trval trénink RL tentokrát? Zdá se, že jste již měli R1 nebo alespoň R1-Zero již 10. prosince, protože technická zpráva V3 uvádí, že model V2.5 používal znalostní destilaci R1 a skóre V2.5-1210 je stejné jako aktuální model. Je to pokračování tohoto výcviku?"

Tento netizen má úžasné pozorovací schopnosti! Z technické zprávy dokázal vytáhnout tolik podrobností. Daya Guo také trpělivě vysvětlil iterační proces modelu:

Daya Guo: „Parametry R1-Zero a R1 660B začaly běžet až po vydání V3 a školení trvalo asi 2-3 týdny. Model R1, který jsme zmínili dříve (například v technické zprávě V3), je ve skutečnosti R1-Lite nebo R1-Lite-Zero.“

Takže je to! R1-Zero a R1, které nyní vidíme, jsou „nové a modernizované verze“ a předchozí řada R1-Lite jsou menší verze. Zdá se, že DeepSeek v zákulisí v tichosti iteroval a upgradoval mnoho verzí

Pokud jde o rychlost tréninku, netizens @jiayi_pirate (Jiayi Pan) a netizen B @kaush_trip předali „výslech duše“:

Uživatel D @jiayi_pirate: "10 000 kroků RL za 3 týdny, každý krok šíření gradientu (grpo) trvá ~3 minuty 🤔"

Uživatel B @kaush_trip: "Pokud každý krok šíření gradientu (grpo) trvá ~3 minuty, je to asi 5 kroků za hodinu, 120 kroků za den, což je skutečně velmi pomalé."

To je opravdu precizní výpočet! Podle výpočtů netizenu není tréninková rychlost DeepSeek R1 skutečně vysoká. To také ukazuje, že náklady na školení a časová investice takového vysoce výkonného RL modelu jsou obrovské. „Pomalá práce produkuje jemnou práci“ se zdá být docela vhodným způsobem, jak popsat trénink modelu AI

Nakonec se netizen jménem @davikrehalt (Andy Jiang) zeptal na otázku z perspektivy nejmodernější aplikace:

Uživatel E @davikrehalt: "Zkoušel jsi k tomu použít RL?" formální doklad o životním prostředí, místo pouhého odpovídání na otázky? Bylo by skvělé, kdyby model s otevřeným zdrojovým kódem mohl letos získat zlatou medaili na IMO (Mezinárodní matematické olympiádě)! (A další naděje!)”

Formální důkaz! Zlatá medaile IMO! Tento netizen je docela ambiciózní! Nicméně aplikace umělé inteligence na hardcore pole matematických důkazů je skutečně trendem budoucnosti. Odpověď Daya Guo je opět překvapivá:

Daya Guo: „Pokoušíme se také aplikovat R1 na formální důkazní prostředí, jako je Lean. Doufáme, že komunitě brzy vydáme lepší modely.“

Ze slov Daya Guo se zdá, že v této oblasti již udělali pokrok a v budoucnu mohou být vydány ještě působivější modely!

Na závěr

Z odpovědi Daya Guo lze vydestilovat tři klíčové signály:

Technické umístění: RL je stále v rané fázi a zlepšení výkonu zdaleka nedosahuje svých limitů;

Verifikační logika: schopnost zobecnění pro testování napříč doménami, odmítání „spekulace s pamětí

Hranice aplikace: od jazykových modelů k matematickým důkazům se RL posouvá k uvažování vysokého řádu

Podobné příspěvky

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *