Mistral Small 4 : MoE pour petits modèles IA Mistral Small 4 utilise une MoE pour des modèles IA rapides et moins coûteux, en contraste avec la distillation d'OpenAI pour GPT‑5. Pour les petits modèles IA, deux trajectoires se dessinent : OpenAI privilégie la distillation pour créer des versions mini et nano de GPT‑5.
Pour les petits modèles IA, deux trajectoires se dessinent : OpenAI privilégie la distillation pour créer des versions mini et nano de GPT‑5.4, tandis que Mistral mise sur une Mistral Small 4, une mixture of experts. Le résultat est le même en apparence — des modèles plus rapides et moins coûteux — mais les chemins techniques divergent. Mistral annonce ainsi Mistral Small 4, le premier modèle capable d’unifier Magistral (raisonnement), Pixtral (multimodal) et Devstral (code) en une offre open source sous licence Apache 2.0, tout en rejoignant la NVIDIA Nemotron Coalition.
Small 4 : une MoE pour 128 experts, 4 interrogés par token
Le cœur du Small 4 est une Mixture of Experts (MoE). Cette approche, qui existe depuis longtemps, « divise pour régner » : le modèle comprend 128 experts dédiés à des aspects distincts des données, mais 4 seulement sont consultés pour chaque token. L’architecture totalise 119 milliards de paramètres, et environ 6 milliards restent actifs par token pendant l’inférence — ce chiffre grimpe à 8 milliards lorsque les couches d’intégration et de sortie s’allument.
Selon Mistral, Small 4 fusionne les capacités de Magistral, Pixtral et Devstral dans un seul modèle polyvalent. Cette unification vise à offrir une solution « tout-en-un » adaptée au raisonnement, au multimodal et au code, tout en restant compatible avec des déploiements plus modestes sur le plan matériel.
Le modèle est disponible en open source sous licence Apache 2.0 et l’éditeur a choisi de rejoindre la NVIDIA Nemotron Coalition.
Ce que cela change pour les petits modèles IA
La MoE permet de réduire le coût et la latence d’inférence en ne mobilisant qu’une fraction des experts pour une entrée donnée. En parallèle, la méthode utilisée par OpenAI — la distillation — cadre des versions réduites d’un grand modèle par apprentissage sur des sorties d’un modèle maître. Pour les petites applications, MoE et distillation proposent deux approches de réduction, mais ne répondent pas aux mêmes critères de performance selon les cas d’usage.
- Gain d’efficacité : moins de calcul actif par token et possibilité d’alléger les ressources.
- Spécialisation : chaque expert se concentre sur un sous-ensemble de tâches ou de données.
- Complexité technique : la mise en œuvre et la maintenance d’une MoE peuvent être plus exigeantes que la simple distillation.
Contexte, limites et ce qu’on ne sait pas encore
Au‑delà des chiffres, l’efficacité dépend des usages et des données d’entraînement. L’intégration des modules et la gestion de la cohérence entre raisonnement, multimodal et code posent des défis, notamment sur la robustesse et les biais potentiels en production. Les détails opérationnels — comment la MoE gère des charges de travail hétérogènes ou des scénarios inattendus — nécessiteront des tests sur le terrain.
Pour terminer
Avec Mistral Small 4, la firme française propose une voie convaincante pour des « petits » modèles IA sans sacrifier certaines capacités clés. Reste à voir dans quelle mesure ces approches MoE et distillation influenceront les coûts réels et les performances des déploiements industriels à moyen terme.