Thinking Machines présente une IA interactive en direct

Thinking Machines présente une IA interactive en direct Thinking Machines présente TLM-Interaction-Small, une IA interactive capable de réagir en direct et d’intégrer le contexte visuel, avec une latence très faible.

Les modèles interactifs d’IA gagnent une étape avec Thinking Machines Lab et son prototype TLM-Interaction-Small, présenté comme une solution plus vivante et réactive que les génératifs actuels.

Fondée par Mira Murati, ancienne directrice technique d’OpenAI, Thinking Machines Lab annonce vouloir créer des modèles d’IA qui s’inscrivent dans une catégorie qu’elle décrit comme des « modèles interactifs ». Dans un billet publié le 11 mai, l’entreprise détaille plusieurs cas d’usage de TLM-Interaction-Small et promet une expérience conversationnelle plus proche d’un échange humain que celle proposée par les outils génératifs traditionnels.

Selon le billet, le modèle est conçu pour participer à des échanges avec plusieurs interlocuteurs et adapter son tempo afin de s’aligner sur le rythme d’une discussion humaine.

Un temps de réponse de 0,40 seconde en full duplex

Le cœur du système réside dans sa latence. En mode "full duplex", TLM-Interaction-Small peut répondre et intervenir en continu avec une latence d’environ 0,40 seconde, ce qui se rapproche d’un dialogue naturel. Cette rapidité le distingue des modèles génératifs grand public, qui restent bloqués pendant le calcul de la réponse et ne réintroduisent les échanges qu’ensuite.

Thinking Machines Lab parle de ce qu’elle appelle le goulet d’étranglement de la collaboration qu’elle cherche à dépasser: permettre une conversation fluide et multi-voix sans interruption notable.

Cas d’usage concrets et capacités

Parmi les démonstrations, le modèle propose une traduction instantanée — par exemple Hindi vers anglais — tout en ajustant le style et le ton, allant d’un registre oratoire relâché à une communication adaptée au monde de l’entreprise. Interrogé par des utilisateurs, le modèle est aussi capable de lancer une recherche en pleine discussion et d’organiser les résultats sous forme de graphique si nécessaire.

Le système est en outre capable d’utiliser des éléments contextuels visuels captés via une caméra: il peut, par exemple, signaler à l’utilisateur s’il se voute devant l’écran ou rappeler à l’ordre une envie de caféine ou de sucre. Ces démonstrations plaident pour une approche où l’IA réagit non seulement au texte, mais aussi au contexte physique et situationnel.

Un entre-deux entre IA générative et World Model

Globalement, l’équipe présente TLM-Interaction-Small comme une solution qui s’inscrit entre les IA génératives classiques et des idées comme les World Models, qui cherchent à comprendre le monde réel au-delà des données numériques. Cette orientation vise à intégrer davantage le monde hors ligne dans le raisonnement de l’IA, plutôt que de se limiter à une production de texte ou d’images isolée.

Le parallèle avec d’autres initiatives est éclairant: AMI Labs, co-fondée par Yann LeCun, cherche aussi à doter les modèles IA de « modèles du monde ». Thinking Machines Lab s’inscrit ainsi dans une discussion plus large sur la manière dont les systèmes IA appréhendent et interagissent avec le monde physique.

Contexte, limites et ce qu’on ne sait pas encore

Les travaux de Thinking Machines Lab nourrissent une réflexion sur la manière dont les sociétés occidentales envisagent l’IA au-delà de l’accumulation de données pour améliorer les résultats. Toutefois, la société précise qu’une préversion de recherche sera publiée dans les prochains mois et que l’objectif reste une sortie plus large plus tard dans l’année. En l’état, les résultats présentés restent des démonstrations et les benchmarks publics complets n’ont pas encore été dévoilés.

Selon TechCrunch, l’outil pourrait être perçu comme un génératif capable de couper la parole, ce qui pointe à la fois une ambition et une zone grise sur la nature exacte des échanges humains simulés. Le lecteur doit donc attendre des tests plus approfondis pour évaluer la robustesse, la sécurité et les limites pratiques de l’approche.

Pour terminer

En l’état, Thinking Machines Lab propose une approche hybride qui privilégie l’interaction avec le monde réel et les flux hors ligne plutôt que la pure génération. Reste à voir si le concept tiendra ses promesses lors d’une ouverture plus large et comment il sera intégré dans des usages professionnels réels, avec quels compromis et quelles garanties.

Thinking Machines présente une IA interactive en direct

Un temps de réponse de 0,40 seconde en full duplex

Cas d’usage concrets et capacités

Un entre-deux entre IA générative et World Model

Contexte, limites et ce qu’on ne sait pas encore

Pour terminer

Sêmeia lève 21 M€ pour accélérer la télésurveillance médicale

STJV accuse Amplitude Studios d’imposer l’IA générative

IA agentique et développement logiciel : faut-il relire le code ?

Thinking Machines présente une IA interactive en direct

Un temps de réponse de 0,40 seconde en full duplex

Cas d’usage concrets et capacités

Un entre-deux entre IA générative et World Model

Contexte, limites et ce qu’on ne sait pas encore

Pour terminer

Articles connexes

Sêmeia lève 21 M€ pour accélérer la télésurveillance médicale

STJV accuse Amplitude Studios d’imposer l’IA générative

IA agentique et développement logiciel : faut-il relire le code ?