WorldModel : LeCun et AMI Labs réinventent l’IA Le WorldModel d’AMI Labs, porté par Yann LeCun, apprend le monde via images et actions et vise une IA plus efficace que les LLM.
Le WorldModel, présenté par Yann LeCun et l’équipe AMI Labs, vise à apprendre le monde à partir d’images et de vidéos plutôt que de s’appuyer exclusivement sur le langage. Le premier modèle, appelé LeWorldModel ou LeWM, cherche à anticiper le futur à partir d’actions et d’observations visuelles, avec une empreinte computationnelle plus légère que celle des grands modèles actuels.
Comment fonctionne le WorldModel et quelles nouveautés apporte LeWM
Le WorldModel se base sur le cadre JEPA et intègre un régulariseur gaussien nommé SIGReg pour éviter l’effondrement des représentations. Il s’entraîne de bout en bout sur des pixels et se contente de deux termes de perte, tout en visant des performances de contrôle compétitives pour un coût de calcul réduit.
Concrètement, LeWM tente de construire une représentation interne du monde en se fondant sur ce qu’il voit et sur les actions qu’on lui fait prendre, puis il prédit ce qui se passera ensuite. Cette approche diffère des LLM classiques qui apprennent surtout à partir de textes et nécessitent des ressources massives, tant en paramètres qu’en mémoire.
WorldModel vs les grands modèles de langage et pourquoi c’est important
Les modèles de langage modernes montent en puissance avec des centaines de milliards de paramètres, ce qui augmente le calcul requis et la mémoire nécessaire pour stocker les poids. Une requête à un LLM comme ChatGPT implique déjà des calculs massifs pour traiter un seul token. En s’appuyant sur des pixels et des vidéos, le WorldModel pourrait réduire ces coûts tout en offrant des capacités de raisonnement et de planification basées sur le monde réel.
Ce qu’on retient et ce qu’on attend
- Régularisation et stabilité : le SIGReg vise à éviter l’effondrement des représentations lors de l’apprentissage à partir de données visuelles.
- Apprentissage end-to-end sur les pixels : le modèle s’entraîne directement sur des entrées visuelles avec peu de pertes spécifiques.
- _objectif pratique : le WM cherche des performances de contrôle compétitives à coût réduit.
Limites et questions en suspens
Si l’approche est prometteuse, plusieurs zones restent à éclaircir : sur quels environnements le WorldModel excelle-t-il, quelle est sa capacité de généralisation au-delà des données visuelles utilisées, et comment s’inscrit-elle dans un écosystème IA où les LLM restent dominants ? À mes yeux, l’idée est séduisante, mais son efficacité hors des laboratoires restera à démontrer.
Pour terminer
Le WorldModel marque une étape intéressante vers une IA qui apprend du monde plutôt que du texte. Reste à voir si sa promesse de moindre coût de calcul se traduira en gains opérationnels durables et en capacités réellement nouvelles.