Ударни вести! Истражувачот на DeepSeek открива на интернет: Тренингот R1 траеше само две до три недели, а моќна еволуција на R1 нула беше забележана за време на кинеската Нова Година

Токму сега, го забележавме тој истражувач DeepSeek Даја Гуо одговори на прашањата на корисниците за DeepSeek R1 и плановите на компанијата за понатаму. Можеме само да кажеме дека DeepSeek R1 е само почеток, а внатрешното истражување сè уште брзо напредува. Истражувачите на DeepSeek дури и не направија пауза за време на кинеската Нова година и неуморно работеа на унапредување на истражувањето. DeepSeek има некои големи потези кои доаѓаат

Еве што е: на 1 февруари, Даја Гуо објави твит откривајќи што најмногу го возбудувало за време на кинеската Нова Година: сведок на „Континуиран раст“ на кривата на изведба на R1-Нула модел, и чувство на моќна сила на засилено учење (RL)!

Истражувачот на вештачката интелигенција на Deepseek, Даја Гуо, разговара со корисниците на мрежата

Сега ќе ви помогнам да го репродуцирате разговорот на Даја Гуо со корисниците на интернет:

Нетизен А @PseudoProphet: „Голем удар, сакам да прашам колку долго ќе трае ова континуирано подобрување на перформансите. Дали е ова уште во раните фази? Дали се чувствува дека RL моделот на DeepSeek штотуку започнува, како GPT-2 во јазичните модели? Или достигна позрела фаза како што е GPT-3.5 и е на пат да удри во тесно грло?“

Ова е многу остро прашање, кое директно се однесува на потенцијалот на RL технологијата на DeepSeek! Одговорот на Даја Гуо е исто така многу искрен:

Даја Гуо: „Мислам дека се уште сме во многу рана фаза, а има уште долг пат да се оди на полето на РЛ. Но, верувам дека ќе видиме значителен напредок оваа година“.

Истакнете ги клучните точки! „Многу рано“, „Долг пат за истражување“, „Значаен напредок оваа година“! Овие клучни зборови се полни со информации. Ова значи дека DeepSeek верува дека имаат уште многу простор за подобрување на полето на RL, а сегашните резултати на R1 можеби се само врвот на ледениот брег, па иднината е ветувачка!

Веднаш потоа, друг нетизен @kaush_trip (Cheeku Tripathi) постави попрофесионално прашање што оди директно во срцето на можностите на моделот:

Корисник Б @kaush_trip: „Врз основа на перформансите на R1-Zero, како оценувате дали моделот навистина има способност за генерализација, или дали само ги меморира состојбите транзиции и награди?“

Прашањето е многу актуелно! На крајот на краиштата, многу модели изгледаат многу моќни, но во реалноста тие само „учат напамет“ од податоците за обуката и ќе пропаднат во друга средина. Дали DeepSeek R1 навистина е подготвен?

Даја Гуо: „Ние користиме репер за домени кои не се опфатени со барање за RL за да ја оцениме способноста за генерализација. Во моментов, се чини дека има способност за генерализација“.

Фразата „области кои не се опфатени со RL prompt“ е клучот! Ова значи дека DeepSeek не ја „мами“ евалуацијата со податоците за обуката, туку е тестиран со нови сценарија дека моделот никогаш не видел претходно, што навистина може да го одрази нивото на генерализација на моделот. Употребата на Даја Гуо на ригорозната формулација „се чини дека ја има“ исто така ја прави пореална и веродостојна

Следно, нетизен со ID @teortaxesTex, голем обожавател на DeepSeek (неговиот коментар дури ги вклучуваше зборовите „DeepSeek навивачки тим на китови“), започна со техничкиот извештај DeepSeek V3 и постави прашање за модел време за обука:

Корисник C @teortaxesTex: „Ако не е тајна: колку време траеше обуката за РЛ овој пат? Се чини дека веќе сте имале R1 или барем R1-Zero уште на 10 декември, бидејќи техничкиот извештај на V3 споменува дека моделот V2.5 користел дестилација на знаење R1, а резултатот од V2.5-1210 е ист како актуелен модел. Дали е ова продолжение на тој тренинг?“

Овој нетизен има неверојатна моќ за набљудување! Тој успеа да извлече толку многу детали од техничкиот извештај. Даја Гуо, исто така, трпеливо го објасни итеративниот процес на моделот:

Даја Гуо: „Параметрите R1-Zero и R1 на 660B почнаа да работат само по објавувањето на V3, а обуката траеше околу 2-3 недели. Моделот R1 што го споменавме претходно (како на пример во техничкиот извештај V3) е всушност R1-Lite или R1-Lite-Zero.

Па тоа е тоа! R1-Zero и R1 што ги гледаме сега се „нови и надградени верзии“, а претходната серија R1-Lite се помали верзии. Се чини дека DeepSeek тивко повтори и надгради многу верзии зад сцената

Што се однесува до брзината на тренингот, корисниците на мрежата @jiayi_pirate (Jiayi Pan) и нетизенот B @kaush_trip пренесоа „испрашување на душата“:

Корисник Д @jiayi_pirate: „10.000 RL чекори за 3 недели, секој чекор за ширење на градиент (grpo) трае ~ 3 минути 🤔“

Корисник Б @kaush_trip: „Ако секој чекор на размножување на градиент (grpo) трае ~ 3 минути, тоа е околу 5 чекори на час, 120 чекори дневно, што е навистина многу бавно“.

Ова е навистина прецизна пресметка! Според пресметката на нетизенот, брзината на обука на DeepSeek R1 навистина не е брза. Ова, исто така, покажува дека трошоците за обука и инвестицијата во време на таков RL модел со високи перформанси се огромни. „Бавната работа произведува добра работа“ се чини дека е прилично соодветен начин да се опише обуката за модели со вештачка интелигенција

Конечно, нетизенот по име @davikrehalt (Енди Џианг) постави прашање од посовремена перспектива на апликацијата:

Корисник Е @davikrehalt: „Дали сте се обиделе да го користите RL за да направите формален доказ за животната средина, наместо само да одговарате на прашања? Би било одлично ако модел со отворен код може да освои златен медал на ММО (Меѓународна математичка олимпијада) оваа година! (И повеќе надежи!)“

Официјален доказ! Златен медал на ММО! Овој нетизен е доста амбициозен! Сепак, примената на вештачката интелигенција на хардкор полето на математичкиот доказ е навистина идниот тренд. Одговорот на Даја Гуо е уште еднаш изненадувачки:

Даја Гуо: „Ние исто така се обидуваме да го примениме R1 во формални доказни средини како што е Lean. Се надеваме дека наскоро ќе објавиме подобри модели во заедницата“.

Од зборовите на Даја Гуо, се чини дека тие веќе постигнале напредок во оваа област, а во иднина може да бидат објавени уште повпечатливи модели!

Во затворање

Три клучни сигнали може да се дестилираат од одговорот на Даја Гуо:

Техничко позиционирање: RL е сè уште во раните фази, а подобрувањата на перформансите се далеку од достигнување на нивните граници;

Логика за верификација: способност за генерализација за тестирање меѓу домени, отфрлање на „шпекулации за меморија

Граници на примена: од јазични модели до математички докази, RL се движи кон расудување од висок ред

Слични објави

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *