Il est proche de DeepSeek-R1-32B et écrase le s1 de Fei-Fei Li ! UC Berkeley et d'autres nouveaux modèles d'inférence SOTA open source

Le modèle d'inférence 32B utilise seulement 1/8 des données et est à égalité avec DeepSeek-R1 de la même taille !

À l'heure actuelle, des institutions telles que Stanford, UC Berkeley et l'Université de Washington ont publié conjointement un modèle d'inférence de niveau SOTA, OpenThinker-32B, et ont également ouvert le code source de jusqu'à 114 000 données de formation.

Page d'accueil du projet OpenThinker:

OpenThinker - Visage qui fait un câlin:

Jeu de données sur les pensées ouvertes:

Découverte en équipe : à l'aide d'un ensemble de données de haute qualité à grande échelle avec des annotations vérifiées DeepSeek-R1 (basées sur la distillation R1), un modèle d'inférence SOTA peut être formé.

La méthode spécifique consiste à mettre à l’échelle les données, à vérifier le processus d’inférence et à mettre à l’échelle le modèle.

Le modèle OpenThinker-32B résultant a surpassé les modèles s1 et s1.1 de Li Fei-Fei dans plusieurs tests de référence en mathématiques, en codage et en sciences, et était proche de R1-Distill-32B.

Il convient de mentionner que par rapport à R1-Distill-32B, qui a utilisé 800 000 données (dont 600 000 échantillons d'inférence), OpenThinker-32B n'a utilisé que 114 000 données pour obtenir presque les mêmes excellents résultats.

De plus, OpenThinker-32 a également rendu publics tous les poids des modèles, les ensembles de données, le code de génération de données et le code de formation !

Table des matières

Conservation des données

Les chercheurs ont formé OpenThinker-32B en utilisant le même ensemble de données OpenThoughts-114k que celui avec lequel ils avaient précédemment formé OpenThinker-7B.

Ils ont utilisé le modèle DeepSeek-R1 pour collecter les processus de raisonnement et les tentatives de réponse à un ensemble soigneusement sélectionné de 173 000 questions. Ces données brutes ont ensuite été publiées sous le nom de jeu de données OpenThoughts-Unverified-173k.

L’étape finale du processus consiste à filtrer les échantillons de données correspondants si le processus de raisonnement ne parvient pas à passer la vérification.

La figure suivante montre visuellement l’ensemble du processus.

L'équipe de recherche saisit d'abord les données sources ou les questions qui peuvent provenir de différents domaines et plateformes, tels que BAAI/TACO, DeepMind, les soumissions Python, etc., couvrant divers aspects tels que le code, les énigmes, la science et les mathématiques.

Ces diverses entrées sont ensuite transmises au module de traitement central, DeepSeek-R1, où les données sont analysées et traitées. Les questions sont divisées en trois catégories : questions scientifiques, mathématiques et énigmes, et code.

Certains résultats ne nécessitent pas de vérification et peuvent être de simples analyses ou des résultats directs. Pour certains contenus qui nécessitent une vérification approfondie, un modèle de langage étendu (LLM) est utilisé pour les juger d'une manière comparable à GT (Ground Truth). S'il s'agit de code, le code est exécuté et des tests unitaires sont effectués pour garantir son exactitude et son efficacité.

Enfin, les résultats provenant de différentes directions peuvent être combinés pour générer une réflexion ouverte et des solutions plus globales.

L'équipe de recherche a mis à jour l'ensemble de données final OpenThoughts-114k avec une configuration appelée « métadonnées » qui contient des colonnes supplémentaires utilisées pour construire l'ensemble de données :

problème
solution_de_vérité_de_base
cas_de_test (code uniquement)
starter_code (code uniquement)
DeepSeek_raisonnement
DeepSeek_solution
domaine
source

Ces métadonnées supplémentaires faciliteront l’utilisation de cet ensemble de données dans de nouveaux scénarios, tels que le filtrage des données, le changement de domaine, les contrôles de vérification et la modification du modèle de processus d’inférence.

Ces métadonnées supplémentaires faciliteront l'utilisation de cet ensemble de données, et cela peut être fait avec une seule ligne de code, comme le filtrage, le changement de domaine, la vérification de la vérification et la modification du modèle de suivi des inférences.

load_dataset("open-thoughts/OpenThoughts-114k", "métadonnées", split="train")

L’équipe de recherche a déclaré qu’elle avait hâte de voir la communauté exploiter ces questions et réponses standard pour la recherche sur l’apprentissage par renforcement (RL) sur le modèle OpenThinker. DeepScaleR a déjà démontré que cette approche fonctionne particulièrement bien à des échelles plus petites.

Vérification

Pour arriver à l’ensemble de données final OpenThoughts-114k, l’équipe de recherche a vérifié les réponses et éliminé les réponses incorrectes.

Comme le montre le tableau ci-dessous, conserver les inférences qui ne passent pas la vérification peut nuire aux performances, même si le modèle non vérifié fonctionne toujours bien par rapport aux autres modèles d’inférence 32B.

Le rôle de la vérification est de maintenir la qualité des annotations R1 tout en augmentant la diversité et la taille de l'ensemble des invites d'apprentissage. D'un autre côté, les données non vérifiées peuvent être étendues plus facilement et méritent donc également d'être explorées plus en profondeur.

Pour les problèmes de code, nous complétons la vérification du processus d’inférence en vérifiant les tentatives de réponse par rapport aux cas de test existants.

Inspirés par les défis rencontrés lors de l'exécution du code, nous avons implémenté un cadre d'exécution de code dans Curator qui permet aux utilisateurs d'exécuter du code à grande échelle, en toute sécurité, et de le vérifier par rapport au résultat attendu.

Pour les problèmes mathématiques, l'équipe de recherche a utilisé un juge LLM (Large Language Model) pour la vérification, qui reçoit à la fois la réponse standard et la tentative de solution DeepSeek-R1.

Il a été constaté que l’utilisation de l’évaluateur LLM pour la génération de données au lieu du moteur d’analyse plus rigoureux (Math-Verify) entraînait un débit de données effectif plus élevé et permettait la formation de modèles en aval avec de meilleures performances.

Entraînement

L'équipe de recherche a utilisé LLaMa-Factory pour affiner Qwen2.5-32B-Instruct trois fois sur l'ensemble de données OpenThoughts-114k avec une longueur de contexte de 16k. La configuration d'entraînement complète est disponible sur GitHub.

OpenThinker-32B a été formé pendant 90 heures en utilisant quatre nœuds P5 8xH100 sur un cluster AWS SageMaker, pour un total de 2 880 heures H100.

Pendant ce temps, OpenThinker-32B-Unverified s'est entraîné pendant 30 heures sur le supercalculateur Leonardo en utilisant 96 nœuds 4xA100 (64 Go par GPU), accumulant 11 520 heures A100.

Évaluation

L’équipe de recherche a utilisé la bibliothèque d’évaluation open source Evalchemy pour évaluer tous les modèles.

Pour AIME24 et AIME25, ils ont calculé la précision en faisant la moyenne des résultats de cinq exécutions. La configuration d'évaluation utilisait un paramètre de température de 0,7, limitait la réponse du modèle à 32 768 jetons, n'ajoutait aucun mot d'invite système ou utilisateur supplémentaire et n'utilisait aucune stratégie de décodage spéciale (comme le forçage budgétaire).

Lorsque le projet OpenThoughts a été lancé, ils se sont fixé comme objectif de créer un modèle de données ouvert avec des performances pouvant correspondre à DeepSeek-R1-Distill-Qwen-32B.

Cet écart a désormais presque été comblé.

Enfin, l’équipe de recherche est enthousiasmée par les progrès rapides réalisés par la communauté dans la création de modèles d’inférence de données ouvertes au cours des dernières semaines, et se réjouit de continuer à progresser en s’appuyant sur les connaissances de chacun.

La version open source d'OpenThinker-32B démontre que les synergies entre les données, la validation et la taille du modèle sont essentielles pour améliorer les capacités d'inférence.

Ce résultat favorise non seulement le développement de modèles d’inférence open source, mais fournit également des ressources précieuses et une inspiration pour l’ensemble de la communauté de l’IA.

Il est proche de DeepSeek-R1-32B et écrase le s1 de Fei-Fei Li ! UC Berkeley et d'autres nouveaux modèles d'inférence SOTA open source

Conservation des données

Vérification

Entraînement

Évaluation

La technologie DeepSeek-R1 dévoilée : les principes fondamentaux de l'article sont décomposés et la clé des performances révolutionnaires du modèle est révélée

Premier lancement ! SiliconFlow X Huawei Cloud lancent conjointement des services d'inférence DeepSeek R1 & V3 basés sur Ascend Cloud !

DeepSeek R1 est arrivé premier au test d'écriture créative, et o3 mini était encore pire que o1 mini !

Que peut accomplir Deepseek ? Même OpenAI n'y arrive pas ?

Paper-DeepSeek-R1 : Incitation à la capacité de raisonnement dans les LLM via l'apprentissage par renforcement

Qu'est-ce que FlashMLA ? Un guide complet sur son impact sur les noyaux de décodage de l'IA

Laisser un commentaire Annuler la réponse

Conservation des données

Vérification

Entraînement

Évaluation

A lire également

Laisser un commentaire Annuler la réponse