Közel áll az DeepSeek-R1-32B-hez, és összetöri Fei-Fei Li s1-ét! UC Berkeley és más nyílt forráskódú új SOTA következtetési modellek

A 32B következtetési modell csak az adatok 1/8-át használja fel, és az azonos méretű DeepSeek-R1-hez kötődik!

Az imént olyan intézmények, mint a Stanford, a UC Berkeley és a Washingtoni Egyetem közösen kiadtak egy SOTA-szintű következtetési modellt, OpenThinker-32B, és nyílt forráskódú, akár 114 000 edzési adattal is rendelkezik.

OpenThinker Project honlapja:

OpenThinker átölelő arc:

Nyitott gondolatok adatkészlet:

Csapatfelfedezés: DeepSeek-R1 ellenőrzött annotációkkal (R1 desztilláción alapuló) nagyszabású, kiváló minőségű adathalmaz segítségével betanítható a SOTA következtetési modell.

A konkrét módszer az adatok skálázása, a következtetési folyamat ellenőrzése és a modell méretezése.

Az így létrejött OpenThinker-32B felülmúlta Li Fei-Fei s1 és s1.1 modelljeit a matematikai, kódolási és természettudományi több benchmark tesztben, és közel volt az R1-Distill-32B-hez.

Érdemes megemlíteni, hogy az R1-Distill-32B-hez képest, amely 800 000 adatot használt (beleértve a 600 000 következtetési mintát is), az OpenThinker-32B csak 114 000 adatot használt, hogy majdnem ugyanolyan kiváló eredményeket érjen el.

Emellett az OpenThinker-32 nyilvánosságra hozta az összes modellsúlyt, adatkészletet, adatgeneráló kódot és képzési kódot is!

Tartalomjegyzék

Adatkezelés

A kutatók az OpenThinker-32B-t ugyanazzal az OpenThoughts-114k adatkészlettel képezték ki, mint korábban az OpenThinker-7B-t.

Az DeepSeek-R1 modellt használták arra, hogy összegyűjtsék az érvelési folyamatokat, és válaszoljanak meg egy gondosan kiválasztott, 173 000 kérdésből álló halmazra. Ezt a nyers adatot ezután OpenThoughts-Unverified-173k adatkészletként tették közzé.

A folyamat utolsó lépése a megfelelő adatminták kiszűrése, ha az érvelési folyamat nem megy át az ellenőrzésen.

Az alábbi ábra vizuálisan mutatja be a teljes folyamatot.

A kutatócsoport először forrásadatokat vagy kérdéspromptokat ad meg, amelyek különböző területekről és platformokról származhatnak, például BAAI/TACO, DeepMind, Python beadványok stb., amelyek különböző szempontokat fednek le, mint például a kód, a rejtvények, a tudomány és a matematika.

Ezek a különféle bemenetek azután az DeepSeek-R1 központi feldolgozó modulhoz kerülnek, ahol az adatokat elemzik és feldolgozzák. A kérdések három kategóriába sorolhatók: természettudományos kérdések, matematikai és rejtvények, valamint kód.

Egyes eredmények nem igényelnek ellenőrzést, és lehetnek egyszerű elemzések vagy közvetlen kimenetek. Egyes tartalmak esetében, amelyek mélyreható ellenőrzést igényelnek, nagy nyelvi modellt (LLM) használnak a GT-hez (Ground Truth) hasonló módon történő megítéléshez. Ha kódról van szó, akkor a kód végrehajtásra kerül, és egységteszteket hajtanak végre a helyességének és hatékonyságának biztosítása érdekében.

Végül a különböző irányokból származó eredményeket kombinálva nyitott gondolkodás és átfogóbb megoldások születhetnek.

A kutatócsoport frissítette a végleges OpenThoughts-114k adatkészletet egy „metaadatok” nevű konfigurációval, amely néhány további oszlopot tartalmaz az adatkészlet felépítéséhez:

probléma
földi_igazság_megoldás
teszt_esetek (csak kód)
starter_code (csak kód)
DeepSeek_okoskodás
DeepSeek_megoldás
domain
forrás

Ezek a további metaadatok megkönnyítik az adatkészlet használatát olyan új forgatókönyvekben, mint például az adatszűrés, a tartományváltás, az ellenőrzési ellenőrzések és a következtetési folyamatsablon módosítása.

Ezek a további metaadatok megkönnyítik ennek az adatkészletnek a használatát, és ez egyetlen kódsorral is elvégezhető, például szűréssel, domain módosítással, az ellenőrzés ellenőrzésével és a következtetéskövető sablon módosításával.

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

A kutatócsoport azt mondja, már alig várják, hogy a közösség felhasználja ezeket a kérdéseket és standard válaszokat az OpenThinker modellen alapuló megerősítéses tanulás (RL) kutatásához. A DeepScaleR már bebizonyította, hogy ez a megközelítés különösen jól működik kisebb méretekben.

Ellenőrzés

A végső OpenThoughts-114k adatkészlethez a kutatócsoport ellenőrizte a válaszokat, és kiküszöbölte a helytelen válaszokat.

Amint az alábbi táblázatban látható, az ellenőrzésen át nem menő következtetések megtartása ronthatja a teljesítményt, bár az ellenőrizetlen modell továbbra is jól teljesít a többi 32B következtetési modellhez képest.

Az ellenőrzés szerepe az R1 annotációk minőségének megőrzése, miközben bővíti a képzési promptkészlet sokféleségét és méretét. Másrészt az ellenőrizetlen adatok könnyebben bővíthetők, ezért érdemes tovább kutatni.

Kódproblémák esetén a következtetési folyamat ellenőrzését a meglévő tesztesetekkel összevetve ellenőrizzük a válaszkísérleteket.

A kódvégrehajtás során felmerülő kihívásoktól ihletve egy olyan kódvégrehajtási keretrendszert implementáltunk a Curatorban, amely lehetővé teszi a felhasználók számára, hogy nagy méretben, biztonságosan hajtsák végre a kódot, és ellenőrizzék azt a várt kimenettel szemben.

A matematikai problémákhoz a kutatócsoport egy LLM (Large Language Model) bírót használt az ellenőrzéshez, amely megkapja a standard választ és az DeepSeek-R1 megoldási kísérletet is.

Megállapítást nyert, hogy az LLM kiértékelő használata az adatgeneráláshoz a szigorúbb elemző motor (Math-Verify) helyett nagyobb effektív adatsebességet eredményezett, és lehetővé tette a jobb teljesítményű downstream modellek betanítását.

Edzés

A kutatócsoport a LLaMa-Factory-t használta a Qwen2.5-32B-Instruct háromszori finomhangolására az OpenThoughts-114k adatkészleten, 16k kontextushosszúsággal. A teljes képzési konfiguráció megtalálható a GitHubon.

Az OpenThinker-32B-t 90 órán át képezték négy 8xH100 P5 csomóponttal egy AWS SageMaker klaszteren, összesen 2880 H100 órán keresztül.

Eközben az OpenThinker-32B-Unverified 30 órán keresztül edzett a Leonardo szuperszámítógépen, 96 4xA100-as csomóponttal (64 GB GPU-nként), és 11 520 A100 órát halmozott fel.

Értékelés

A kutatócsoport az Evalchemy nyílt forráskódú kiértékelő könyvtárat használta az összes modell értékeléséhez.

Az AIME24 és az AIME25 esetében öt futtatás eredményének átlagolásával számították ki a pontosságot. Az értékelési konfiguráció 0,7-es hőmérsékleti paramétert használt, a modellválaszt 32 768 tokenre korlátozta, nem adott hozzá semmilyen további rendszer- vagy felhasználói felszólítást, és nem használt semmilyen speciális dekódolási stratégiát (például költségvetési kényszert).

Amikor az OpenThoughts projektet elindították, célul tűzték ki egy nyílt adatmodell létrehozását, amelynek teljesítménye megfelel az DeepSeek-R1-Distill-Qwen-32B-nek.

Mára ez a szakadék majdnem megszűnt.

Végezetül, a kutatócsoport izgatottan várja a közösség által az elmúlt hetekben a nyíltadat-következtetési modellek felépítésében elért gyors előrehaladást, és várakozással tekint a további előrelépés elé egymás meglátásai alapján.

Az OpenThinker-32B nyílt forráskódú kiadása bizonyítja, hogy az adatok, a hitelesítés és a modell mérete közötti szinergiák kulcsfontosságúak a következtetési képességek fejlesztésében.

Ez az eredmény nemcsak a nyílt forráskódú következtetési modellek fejlesztését segíti elő, hanem értékes forrásokat és inspirációt is biztosít az egész AI közösség számára.

Közel áll az DeepSeek-R1-32B-hez, és összetöri Fei-Fei Li s1-ét! UC Berkeley és más nyílt forráskódú új SOTA következtetési modellek

Adatkezelés

Ellenőrzés

Edzés

Értékelés

Mit érhet el a Deepseek? Még az OpenAI sem képes rá?

DeepSeek R1 papírértelmezés és kulcsfontosságú technikai pontok

OpenAI o3-mini vs. DeepSeek-R1: Ki az új generációs AI modellek királya?

Az DeepSeek R1 lett az első a kreatív írásbeli tesztben, és az o3 mini még rosszabb volt, mint az o1 mini!

A slágerlisták élén a Le Chat áll, százmilliárd dolláros befektetésével. Az Egyesült Államok és Kína után ez a harmadik AI-hatalom?

Ali Qwen2.5-Max megelőzi az DeepSeek-V3-at! Netizen: A kínai mesterséges intelligencia gyorsan csökkenti a különbséget

Vélemény, hozzászólás? Válasz megszakítása

Adatkezelés

Ellenőrzés

Edzés

Értékelés

Hasonló hozzászólások

Vélemény, hozzászólás? Válasz megszakítása