DeepSeek-R1 : Optimiser les compétences de raisonnement dans les LLM via l'apprentissage par renforcement

Dans le monde en évolution rapide de l'intelligence artificielle, nous vous avons déjà présentés les avancées significatives de modèles de langages open-source provenant de Google, Meta ou encore Perplexity. Avec le projet chinois DeepSeek qui a été dévoilé, les capacités de raisonnement des modèles de langage deviennent un sujet majeur ! Au-delà des articles sensationnalistes publiés par la presse de vulgarisation informatique, voici une mise en lumière sur les avancées réalisées grâce aux modèles de la série DeepSeek-R1, qui visent à améliorer ces compétences en utilisant différentes approches d'apprentissage par renforcement.
Présentation des modèles de base : DeepSeek-R1-Zero et DeepSeek-R1
Les chercheurs ont introduit DeepSeek-R1-Zero comme un modèle initial formé par une grande échelle d'apprentissage par renforcement sans pré-fine-tuning supervisé. Ce modèle a démontré des capacités de raisonnement impressionnantes malgré certains défis comme la faible lisibilité et le mélange des langues.
Pour surmonter ces limitations, DeepSeek-R1 a été développé en intégrant plusieurs étapes de formation avant l'apprentissage par renforcement (RL). Cette approche étape-par-étape permet de peaufiner les compétences linguistiques et de raisonnement du modèle tout en réduisant les problèmes observés avec DeepSeek-R1-Zero.
Caractéristiques de DeepSeek-R1-Zero
DeepSeek-R1-Zero se distingue par :
- L'émergence naturelle de comportements complexes de raisonnement grâce au RL.
- Des capacités notables telles que l'auto-vérification et la réflexion.
- Le développement de chaînes de pensée longues (long CoTs).
Cependant, il peut rencontré des obstacles comme une répétition incessante et des mélanges linguistiques non désirés, limitant ainsi son efficacité globale.
DeepSeek-R1 : Une amélioration significative
Pour remédier aux défauts mentionnés avec R1-Zero, DeepSeek-R1 a été conçu avec une stratégie multi-étapes impliquant des données de départ froide avant la phase de RL. Cela s'est avéré crucial pour affiner les compétences tant linguistiques que rationnelles.
DeepSeek-R1 est capable de fournir une performance comparable voire supérieure à celle des solutions concurrentes sur divers domaines tels que les tâches mathématiques, le codage et les tâches de raisonnement. Le modèle intègre deux phases RL afin de découvrir des motifs de raisonnement plus efficaces et alignés avec les préférences humaines, ainsi que deux phases SFT servant de graine pour les capacités de raisonnement et non-raisonnement.
La puissance de distillation de modèles
Il est intéressant de noter que les motifs de raisonnement des grands modèles peuvent être distillés en modèles plus petits, offrant ainsi une meilleure performance que celles découvertes via RL sur de petits modèles. Ceci prouve que la taille n'est pas toujours synonyme de supériorité, surtout lorsqu'on utilise des techniques avancées comme la distillation des connaissances.
Accès et support communautaire
Soucieuse de soutenir la recherche, la communauté DeepSeek met ces modèles à disposition en open-source. En plus de DeepSeek-R1-Zero et DeepSeek-R1, six modèles denses distillés issus de DeepSeek-R1 basés sur Qwen et Llama sont également disponibles. Cela inclut des checkpoints variant de 1,5 milliards à 70 milliards de paramètres.
Ces ressources permettent aux chercheurs et développeurs de tester et d'intégrer ces avancées dans leurs propres projets, favorisant le progrès continuel dans le domaine de l'IA et du ML. Par exemple, Groq met à disposition dans son environnement cloud la version basée sur Llama 3.3 de Meta, DeepSeek-R1-Distill-Llama-70B, afin de la déployer et évaluer la pertinence du modèle dans des applications existantes comme on peut le voir dans cette vidéo.
Bancs d'essai et évaluations
Les performances des modèles distillés ont été évaluées sur divers benchmarks incluant AIME 2024, MATH-500 et GPQA Diamond entre autres que vous pouvez retrouver sur la page GitHub de DeepSeek. Les résultats montrent que même les modèles plus petits peuvent concurrencer efficacement les versions plus grandes lorsqu'ils sont correctement raffinés.
Exploitation pratique et API
Il est possible de discuter avec DeepSeek-R1 via le site officiel de DeepSeek, ainsi que sur les magasins d'applications mobiles d'Apple et Google, où une plateforme conviviale permet de tester le modèle en temps réel. De plus, une API compatible OpenAI est disponible, facilitant la mise en œuvre dans différents environnements.
Par exemple, pour démarrer un service utilisant DeepSeek-R1-Distill-Qwen-32B, la commande suivante peut être utilisée :
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager Cette facilité d'utilisation rend ces outils accessibles même pour ceux ayant moins d'expérience technique, permettant une large adoption et expérimentation.
Les modèles de la série DeepSeek-R1 représentent une avancée significative dans le domaine de l'intelligence artificielle appliquée à la compréhension et au raisonnement. Leur développement et leur mise à disposition en open-source illustrent l'engagement de la communauté envers l'innovation et le partage des connaissances, ouvrant la voie à de nouvelles opportunités et applications dans le domaine de l'apprentissage automatique.