PageAgent : piloter des interfaces web avec le langage naturel PageAgent permet de contrôler des interfaces web via JavaScript in-page, avec validation humaine et support multi-LLM pour l’automatisation et l’accessibilité. PageAgent, développé par Alibaba, propose de contrôler des interfaces web directement via JavaScript in-page, sans extension navigateur ni navigateur headless.
PageAgent, développé par Alibaba, propose de contrôler des interfaces web directement via JavaScript in-page, sans extension navigateur ni navigateur headless. L’agent agit sur le DOM en mode texte, sans OCR ni modèles multimodaux, et s’appuie sur des grands modèles de langage pour interpréter les commandes en langage naturel. Cette approche permet d’expérimenter des cas d’usage variés tout en conservant une expérience utilisateur fluide.
Comment fonctionne PageAgent sur une page Web
PageAgent s’insère directement dans une page via du JavaScript. L’agent lit et interprète les commandes en langage naturel, les traduit en actions sur le DOM et exécute les interactions comme cliquer, saisir du texte, naviguer entre les champs et les menus. Contrairement à des solutions basées sur OCR ou sur des modèles multimodaux, PageAgent s’appuie sur une interface texte et sur des LLM déployés côté client ou côté serveur selon le déploiement.
Le processus est guidé par une interface utilisateur qui propose une validation humaine lorsque nécessaire. Cette boucle d’interaction garantit que les actions sensibles ou complexes sont vérifiées avant d’être appliquées.
Cas d’usage et scénarios concrets
- Co-pilote IA intégré : intégré dans des produits pour assister les utilisateurs dans la navigation et l’exécution de tâches répétitives.
- Remplissage intelligent de formulaires : l’agent identifie les champs et propose des valeurs, en s’adaptant à des règles métier.
- Accessibilité via commandes vocales : les commandes parlées peuvent être traduites en actions DOM, améliorant l’inclusivité.
- Automatisation multi-pages : enchaîner des actions sur plusieurs pages et flux; une extension Chrome optionnelle peut faciliter le déploiement.
- Validation humaine en salle d’attente : l’interface intègre un mécanisme de révision pour corriger les erreurs éventuelles avant la mise en production.
Limites et défis
Si PageAgent repose sur une approche directe du DOM, elle dépend fortement de la structure HTML et des scripts présents sur la page. Les contenus dynamiques ou chargés via des frameworks peuvent nécessiter des stratégies supplémentaires pour synchroniser les actions. De plus, l’exécution locale ou distante des LLM introduit des questions de latence et de sécurité, notamment autour de l’accès au contenu utilisateur et du risque d’instructions sensibles mal interprétées. Enfin, l’usage d’une extension Chrome, bien que facultatif, peut apporter une couche d’authentification et de permissions plus fine mais ajoute des défis de déploiement et de maintenance.
Éléments à surveiller et perspectives
À ce stade, PageAgent ouvre une voie intéressante pour l’automatisation sans dépendre d’un navigateur headless ou OCR. Reste à voir comment l’outil gérera les pages pleinement dynamiques, les cadres isolés et les contrôles personnalisés. L’intégration avec plusieurs LLM offre une flexibilité mais soulève aussi des questions sur la confidentialité des données et la préservation du contexte sur des sessions longues.
Pour terminer
PageAgent montre une approche pragmatique pour faire dialoguer langage naturel et navigateur, sans pièces lourdes côté client. Le prochain défi sera d’éprouver sa robustesse sur des flux web complexes et d’évaluer l’impact sur l’expérience utilisateur et la sécurité.