Appuyez sur ÉCHAP pour fermer

Intelligence Artificielle
4 min de lecture

OpenMythos : reconstruction open source de Claude Mythos

Partager :

OpenMythos : reconstruction open source de Claude Mythos OpenMythos explore une reconstruction open source de Claude Mythos, mêlant RDT, attention et MoE. OpenMythos est une reconstruction open source de l'architecture supposée derrière Claude Mythos, née de la littérature publique sur les modèles avancés.

OpenMythos est une reconstruction open source de l'architecture supposée derrière Claude Mythos, née de la littérature publique sur les modèles avancés. Cette implémentation théorique présente un Recurrent-Depth Transformer (RDT) articulé en trois blocs successifs: Prelude, un bloc récurrent bouclé jusqu’à max_loop_iters fois, et une Coda. Pour ceux qui scrutent les détails, le dépôt GitHub fournit les paramètres et les variantes préconfigurées. OpenMythos sur GitHub.

Une architecture en trois blocs : Prelude, bloc récurrent et Coda

OpenMythos décrit une logique en trois étages. Le Prelude agit comme couche d’entrée: encodage des tokens, positionnement temporel et normalisation qui préparent le flux pour les blocs ultérieurs.

Le cœur est le Recurrent Block, bouclé jusqu’à max_loop_iters fois, garantissant une profondeur dynamique sans multiplier explicitement la taille du réseau. Cette récurrence vise à capter des dépendances longues sans déployer un nombre massif de couches empilées. La Coda intervient en sortie, aggregant les états intermédiaires et produisant les projections finales vers les couches de sortie, tout en facilitant une régularisation et une stabilité numérique.

Attentions et flux d’information : MLA, GQA et MoE sparse

Le design permet de choisir entre des mécanismes d’attention MLA (multi-head local attention) ou GQA (global ou quadrant attention, selon les variantes). Cette flexibilité influence la manière dont les tokens interagissent sur le temps et l’espace. Le feed-forward s’appuie sur un sparse MoE (mixture of experts) avec des experts routés et partagés, afin d’allouer dynamiquement des ressources de calcul et d’augmenter la capacité sans gonfler indéfiniment le coût par pas d’inférence.

Variantes et entraînement : de 1 milliard à 1 trillion de paramètres

OpenMythos propose des configurations préconfigurées allant de 1B à 1T paramètres. Le dépôt inclut un script d’entraînement orienté FineWeb-Edu, suggérant des données web étiquetées ou structurées pour illustrer le cadre. En pratique, la faisabilité d’un tel spectre dépend des choix d’échantillonnage, de la régularisation et des stratégies MoE — notamment comment les experts sont routés et partagés entre différentes tâches et segments de données.

Je remarque que cette proposition est surtout une démonstration conceptuelle: elle met en avant une architecture régressive et modulaire qui pourrait théoriquement accélérer l’apprentissage et la spécialisation des compétences, tout en posant des questions sur la reproductibilité et les coûts énergétiques. Le fait que l’entraînement cible FineWeb-Edu souligne l’idée d’un corpus académique ou pédagogique, plutôt que d’un dataset industriel massif.

Enjeux, limites et ce que l’on sait vraiment

Il s’agit d’une reconstruction théorique et non d’une confirmation du design réel derrière Claude Mythos. Les variantes et les choix techniques décrits — recurrence, choix d’attention, MoE — restent à valider par des expériences reproductibles. Des questions subsistent sur la stabilité en formation des RDT, la gestion de latences lors des boucles et la robustesse face à des données hétérogènes. En clair, OpenMythos ouvre un cadre d’étude, mais ne prétend pas refléter fidèlement une architecture propriétaire.

Pour terminer

OpenMythos illustre ce que représenterait une architecture Claude Mythos en open source: un compromis entre profondeur récurrente, modularité et efficacité sparse. Cela invite à suivre les résultats expérimentaux et les analyses de performance lorsqu’on pousse les paramètres et les données. Une question demeure: jusqu’où ces modèles récurrents et >1 milliard de paramètres peuvent-ils réellement atteindre les capacités attendues dans des tâches conversationnelles complexes?

Score SEO
78/100