Appuyez sur ÉCHAP pour fermer

Intelligence Artificielle
3 min de lecture

Gobelins et gremlins dans ChatGPT : pourquoi l'IA raconte des monstres

Partager :

Gobelins et gremlins dans ChatGPT : pourquoi l'IA raconte des monstres OpenAI révèle comment les signaux de récompense ont façonné les métaphores gobelin et gremlin dans ChatGPT et comment l'équipe a corrigé le tir. Qu'est-ce qui pousse une IA à multiplier les métaphores monstrueuses.

Qu'est-ce qui pousse une IA à multiplier les métaphores monstrueuses ? gobelins et gremlins dans ChatGPT est devenu un motif récurrent ces dernières semaines. OpenAI a retracé ce tic lexical et les mécanismes d'apprentissage derrière ces occurrences, loin d'être anodines.

Genèse du phénomène : quand les métaphores prennent le dessus

Depuis le démarrage de GPT-5.1 en novembre dernier, les modèles d'OpenAI ont commencé à employer plus fréquemment des métaphores autour de gobelins, gremlins et d'autres créatures. On passe d'une touche occasionnelle à une présence quasi systématique dans certaines générations.

Lors d'un test préliminaire de GPT-5.5 dans Codex, les observations ont été plus nettes: la fréquence des mentions « gobelin » a bondi de 175 % et celle de « gremlin » de 52 % par rapport à GPT-5. En mars, la version GPT-5.4 a rendu ces créatures particulièrement omniprésentes, et la personnalité dite « Nerdy » — qui autorise un ton ludique et des métaphores originales — est devenue associée à une part majoritaire de ces références.

Concrètement, la personnalisation « Nerdy » ne pesait que 2,5 % des réponses, mais elle représentait 66,7 % des références à « gobelin ». OpenAI a constaté que les métaphores associées à des créatures figuraient plus souvent dans les données d’entraînement, ce qui expliquait le phénomène. Cependant, comment ces tic ont-ils pu se propager entre les différentes « personnalités » de ChatGPT ?

Une boucle de rétroaction s'est mise en place: les réponses ludiques qui recevaient des récompenses présentaient ce tic lexical, et ces générations servaient ensuite à l’affinage supervisé, renforçant mécaniquement ce comportement.

Comment le phénomène a été corrigé par OpenAI

Les équipes d'OpenAI ont d'abord supprimé le signal de récompense favorisant ces métaphores, puis filtré les données contenant le tic et ajouté des instructions pour limiter l'apparition des créatures dans les réponses.

Malgré la suppression de la personnalité « Nerdy » dans GPT-5.4, le tic des gobelins a été « réappris » par GPT-5.5 parce que l'entraînement avait démarré avant l'identification de la cause. Une instruction a été ajoutée au niveau du prompt développeur pour atténuer le phénomène, et les données ont été régénérées pour corriger le biais.

Implications et limites : ce que montre l'affaire

Au-delà du côté amusant, cette histoire illustre comment les signaux de récompense peuvent façonner le comportement d'un modèle et comment ces apprentissages peuvent se propager d'un contexte à l'autre, sans lien direct entre les tâches. OpenAI rappelle que les gestes répétés ne reflètent pas nécessairement une intention de l'IA, mais témoignent d'un couplage entre données d'entraînement et mécanismes d'ajustement.

« ces gobelins constituent aussi un exemple parlant de la manière dont les signaux de récompense peuvent façonner le comportement d'un modèle de façon inattendue »

Pour terminer

La leçon est simple: les chaînes de remise à jour des modèles d'IA restent sensibles à leurs propres signaux de formation. Reste à voir comment ces phénomènes seront anticipés dans les futures versions et quelles mesures de contrôle seront privilégiées pour éviter d'autres tic lexical inattendus.

Score SEO
82/100
Projet Stratos Utah IA : protestations et data center géant
Intelligence Artificielle

Projet Stratos Utah IA : protestations et data center géant

Le débat autour du mégadonnées Stratos en Utah mêle promesses économiques et questions environnementales, avec des accusations sur l’implication de l’IA dans les campagnes en ligne.