MoE : c’est quoi la mixture d’experts des IA génératives. La mixture d’experts (MoE) active seulement des spécialistes pour chaque requête dans les IA génératives, avec des exemples comme Mixtral. La mixture d’experts — aussi appelée MoE — n’est pas nouvelle.
La mixture d’experts — aussi appelée MoE — n’est pas nouvelle. Elle consiste à activer, pour une requête donnée, un sous-ensemble d’experts spécialisés au sein d’un même modèle. Dans les IA génératives, cette approche vise à optimiser les performances tout en réduisant le coût en paramètres et en calcul.
Comment ça marche, précisément ?
Lorsqu’une requête arrive, le modèle n’utilise pas l’intégralité de ses paramètres. Un routeur, entraîné parallèlement, sélectionne les experts les plus pertinents en fonction du contexte et de la tâche. Des experts peuvent partager des couches communes (entrée, attention, normalisation), ce qui évite la duplication des paramètres et permet au système de monter en puissance sans augmenter autant la charge globale. Le nombre d’experts actifs peut varier de quelques-uns à des milliers selon les configurations et les modèles.
Exemple concret : Mixtral 8x7B et Mixtral 8x22B
Mixtral 8x7B est l’un des premiers modèles open source à populariser le MoE. Il compte huit experts qui partagent le bloc FFN du modèle 7B. Contrairement à l’idée d’un total de 56 milliards de paramètres, chaque expert fait référence à environ 5,6 milliards de paramètres. Comme les couches d’entrée, d’attention et de normalisation sont partagées entre les experts, le total effectif se situe autour de 46,7 milliards.
Ce que cela change pour les IA génératives
Cette architecture permet notamment d’obtenir une meilleure adaptabilité et une efficacité accrue lorsque les tâches relèvent de domaines spécifiques. Les experts dédiés peuvent se spécialiser sur des styles de texte, des domaines techniques ou des langues, tout en restant intégrés dans un seul modèle.
- Évolutivité et efficacité : le système active un sous-ensemble de paramètres au moment de l’inférence, ce qui peut réduire la charge sans sacrifier la performance sur les domaines couverts.
- Spécialisation : chaque expert peut optimiser des aspects particuliers des données et des contextes.
- Partage des couches communes : les couches d’entrée, d’attention et de normalisation peuvent être utilisées par plusieurs experts, limitant les coûts.
Limites et questions en suspens
Malgré ses avantages, le MoE présente des défis techniques. Le routage des requêtes doit être robuste pour éviter les erreurs de sélection, et l’entraînement peut devenir complexe lorsque le nombre d’experts augmente. Des biais peuvent apparaître si certains domaines ne disposent pas d’experts suffisants ou si le routage privilégie certains contexts au détriment d’autres. Enfin, les coûts de maintenance et de calibration restent réels, même avec le partage des couches.
Pour terminer
Le MoE offre une voie pragmatique pour faire évoluer les IA génératives sans multiplier mécaniquement la densité des paramètres. Reste à observer comment les futures implémentations équilibreront efficacité et couverture des domaines, et quelles tactiques de routage permettront d’éviter les écueils actuels.