Извънредни новини! Изследователят на DeepSeek разкрива онлайн: R1 обучението отне само две до три седмици и мощна еволюция на R1 нула беше наблюдавана по време на празника на китайската Нова година

Току-що забелязахме този изследовател DeepSeek Дая Гуо отговори на въпросите на нетизени относно DeepSeek R1 и бъдещите планове на компанията. Можем само да кажем, че DeepSeek R1 е само началото и вътрешните изследвания все още напредват бързо. Изследователите на DeepSeek дори не си взеха почивка по време на празника на китайската Нова година и работят неуморно, за да напреднат в изследванията. DeepSeek има някои големи ходове

Ето нещо: на 1 февруари Дая Гуо публикува туит, разкриващ нещото, което го развълнува най-много по време на китайската нова година: да стане свидетел на „непрекъснат растеж“ на кривата на ефективността на R1-нула модел, и усещане на мощна сила на обучение с подсилване (RL)!

Изследователят на Deepseek AI Daya Guo разговаря с нетизени

Сега ще ви помогна да възпроизведете разговора на Daya Guo с нетизени:

Netizen A @PseudoProphet: „Голямо момче, искам да попитам колко дълго ще продължи това непрекъснато подобряване на производителността. Това все още ли е в ранен етап? Усещате ли, че RL моделът на DeepSeek едва започва, като GPT-2 в езиковите модели? Или е достигнал по-зрял етап като GPT-3.5 и е на път да удари тясно място?“

Това е много остър въпрос, който е пряко свързан с потенциала на RL технологията на DeepSeek! Отговорът на Daya Guo също е много честен:

Дая Гуо: „Мисля, че все още сме в много ранен етап и има още много да се извърви в областта на RL. Но вярвам, че ще видим значителен напредък тази година.“

Маркирайте ключовите моменти! „Много рано“, „дълъг път за изследване“, „значителен напредък тази година“! Тези ключови думи са пълни с информация. Това означава, че DeepSeek вярва, че все още има много място за подобрение в областта на RL и настоящите резултати на R1 може да са само върхът на айсберга, така че бъдещето е обещаващо!

Веднага след това друг нетизен @kaush_trip (Cheeku Tripathi) зададе по-професионален въпрос, който стига направо до сърцето на възможностите на модела:

Потребител B @kaush_trip: „Въз основа на представянето на R1-Zero, как оценявате дали моделът наистина има способност за обобщение, или дали просто запаметява преходите на състоянията и наградите?“

Този въпрос е много точен! В края на краищата, много модели изглеждат много мощни, но в действителност те са просто „учене наизуст“ от данните за обучение и няма да се провалят в различна среда. Наистина ли е готов DeepSeek R1?

Дая Гуо: „Ние използваме бенчмарк за домейни, които не са обхванати от подкана за RL, за да оценим способността за обобщение. В момента изглежда има способност за обобщение.

Фразата „области, които не са обхванати от подкана за RL“ е ключът! Това означава, че DeepSeek не „измамва“ оценката с данни за обучение, но се тества с нови сценарии, които моделът никога не е виждал преди, което може наистина да отразява нивото на обобщение на модела. Използването на Daya Guo на строгата формулировка „изглежда има“ също го прави по-реалистично и достоверно

След това потребител на мрежата с ID @teortaxesTex, голям фен на DeepSeek (коментарът му дори включваше думите „DeepSeek whale cheerleading team“), започна с техническия доклад на DeepSeek V3 и зададе въпрос относно време за обучение на модела:

Потребител C @teortaxesTex: „Ако не е тайна: колко време отне този път обучението по RL? Имате чувството, че вече сте имали R1 или поне R1-Zero още на 10 декември, защото техническият доклад V3 споменава, че моделът V2.5 използва R1 дестилация на знания и резултатът на V2.5-1210 е същият като на актуален модел. Това продължение ли е на това обучение?“

Този потребител на мрежата има невероятни способности за наблюдение! Той успя да извлече толкова много подробности от техническия доклад. Дая Гуо също търпеливо обясни итеративния процес на модела:

Дая Гуо: „Параметрите R1-Zero и R1 на 660B започнаха да работят едва след пускането на V3 и обучението отне около 2-3 седмици. Моделът R1, който споменахме преди (като в техническия доклад V3), всъщност е R1-Lite или R1-Lite-Zero.“

Така че това е! R1-Zero и R1, които виждаме сега, са „нови и подобрени версии“, а предишната серия R1-Lite са второстепенни версии. Изглежда, че DeepSeek тихо итира и надгражда много версии зад кулисите

По отношение на скоростта на тренировката, нетизените @jiayi_pirate (Jiayi Pan) и нетизените B @kaush_trip предадоха „разпит на душата“:

Потребител D @jiayi_pirate: ”10 000 RL стъпки за 3 седмици, всяка стъпка на разпространение на градиент (grpo) отнема ~3 минути 🤔”

Потребител B @kaush_trip: „Ако всяка стъпка на градиентно разпространение (grpo) отнема ~3 минути, това са около 5 стъпки на час, 120 стъпки на ден, което наистина е много бавно.“

Това е наистина щателно изчисление! Според изчислението на нетизена скоростта на обучение на DeepSeek R1 наистина не е висока. Това също показва, че разходите за обучение и инвестицията във времето за такъв високоефективен RL модел са огромни. „Бавната работа произвежда добра работа“ изглежда доста подходящ начин да се опише обучението по AI модели

И накрая, потребител на мрежата на име @davikrehalt (Andy Jiang) зададе въпрос от гледна точка на по-модерно приложение:

Потребител E @davikrehalt: „Опитвали ли сте да използвате RL, за да направите официално доказателство за околната среда, вместо просто да отговаряте на въпроси? Би било чудесно, ако модел с отворен код може да спечели златен медал на IMO (Международна олимпиада по математика) тази година! (И още надежди!)”

Официално доказателство! IMO златен медал! Този потребител на мрежата е доста амбициозен! Въпреки това, прилагането на AI в хардкор областта на математическото доказателство наистина е бъдещата тенденция. Отговорът на Daya Guo отново е изненадващ:

Дая Гуо: „Също така се опитваме да приложим R1 към формални среди за доказателство като Lean. Надяваме се скоро да пуснем по-добри модели в общността.“

От думите на Daya Guo изглежда, че вече са постигнали напредък в тази област и може да има още по-впечатляващи модели в бъдеще!

В заключение

Три ключови сигнала могат да бъдат дестилирани от отговора на Daya Guo:

Техническо позициониране: RL все още е в ранните си етапи и подобренията в производителността далеч не са достигнали своите граници;

Логика на проверка: способност за обобщаване за междудомейн тестване, отхвърляне на „спекулации с памет

Граници на приложението: от езикови модели до математически доказателства, RL се движи към разсъждения от висок ред

Подобни публикации

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *