MoE (mixture d'experts) : comprendre les IA génératives

MoE (mixture d'experts) : comprendre les IA génératives La Mixture of Experts (MoE) active des spécialistes selon la requête, illustrée par Mixtral 8x7B et la répartition des paramètres. La mixture d'experts (MoE) est une approche de longue date dans l'IA qui refait parler d'elle dans les modèles génératifs.

La mixture d'experts (MoE) est une approche de longue date dans l'IA qui refait parler d'elle dans les modèles génératifs. Cette semaine, Mistral présente son modèle Small 4, qui exploite ce principe pour activer des spécialistes selon la requête et éviter d'utiliser l'ensemble des paramètres du réseau.

MoE : une approche inspirée de l'hôpital

Le principe est simple et utile: comme dans un hôpital, où 100 médecins existent mais seuls les plus aptes à traiter un patient interviennent, la mixture d'experts fait intervenir uniquement les « experts » pertinents pour une tâche donnée. Lorsqu'une requête arrive, le modèle ne mobilise pas l'ensemble des paramètres, mais quelques experts triés sur le volet. Ces experts disposent chacun de sous-ensembles de paramètres et peuvent partager des couches communes (entrée, sortie, attention, normalisation). Le triage des experts est assuré par un routeur entraîné en parallèle du modèle. Selon les cas, le nombre d'experts peut varier de quelques-uns à des milliers.

Cette modularité permet d'adapter le système à des tâches spécifiques, tout en limitant la charge mémoire pendant l'inférence.

Comment ça marche et les paramètres partagés

Lorsqu'une requête arrive, on n'utilise pas l'ensemble des milliards de paramètres. Le modèle sélectionne les experts les plus pertinents pour la tâche, et chacun dispose de son propre sous-ensemble. Les couches d'entrée et de sortie, les mécanismes d'attention et les couches de normalisation peuvent être partagés entre les experts, ce qui explique que le total soit inférieur à la somme des paramètres individuels.

Le système de routage est entraîné en parallèle du modèle, afin d'apprendre à orienter les requêtes vers les experts les mieux adaptés.

Exemple pratique : Mixtral 8x7B

Mixtral 8x7B est l'un des premiers modèles open source à populariser l'idée MoE. Il compte huit experts, chacun basé sur le bloc FFN (feed-forward) du modèle Mistral 7B. Depuis, Mixtral évolue vers Mixtral 8x22B.

Contrairement à ce que suggère le nom, les 8x7B ne totalisent pas 56 milliards de paramètres. Chaque expert compte 5,6 milliards de paramètres, et les couches d’entrée/sortie, d’attention et de normalisation sont partagées, ce qui porte le total effectif à 46,7 milliards.

Enjeux et limites des MoE

Le MoE permet d’ajuster le comportement du modèle en fonction des tâches et peut réduire la charge mémoire lors de l’inférence. Toutefois, l’architecture introduit des défis techniques:

Complexité d’entraînement : le routeur et les experts doivent apprendre à coopérer de manière stable.
Latence potentielle : la sélection des experts peut influencer les temps de réponse.
Répartition inégale : certains experts peuvent être sous-utilisés ou surchargés, selon les données.

Pour terminer

Les MoE offrent une voie pragmatique pour les IA génératives : privilégier des spécialistes adaptés et partager les éléments centraux du réseau. Reste à observer dans quelles conditions cette approche améliore vraiment les performances et la stabilité en production, notamment en matière de latence et de robustesse du routage.

MoE (mixture d'experts) : comprendre les IA génératives

MoE : une approche inspirée de l'hôpital

Comment ça marche et les paramètres partagés

Exemple pratique : Mixtral 8x7B

Enjeux et limites des MoE

Pour terminer

MoE : c’est quoi la mixture d’experts des IA génératives ?

Les étudiants huent l’oratrice : l’IA, prochaine révolution industrielle

Claude : des fictions d’IA derrière des tentatives de chantage

MoE (mixture d'experts) : comprendre les IA génératives

MoE : une approche inspirée de l'hôpital

Comment ça marche et les paramètres partagés

Exemple pratique : Mixtral 8x7B

Enjeux et limites des MoE

Pour terminer

Articles connexes

MoE : c’est quoi la mixture d’experts des IA génératives ?

Les étudiants huent l’oratrice : l’IA, prochaine révolution industrielle

Claude : des fictions d’IA derrière des tentatives de chantage