New Relic présente la surveillance des applications dans ChatGPT et promet « ouvrir la boîte noire » de l’IA intégrée

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

New Relic souhaite que les entreprises ne naviguent plus « à l’aveugle » lorsqu’elles intègrent leurs services au sein de ChatGPT. La société, spécialisée en observabilité et surveillance des applications, a annoncé une nouvelle fonctionnalité conçue pour les applications s’exécutant dans l’interface conversationnelle, dans le but d’offrir une visibilité accrue sur la performance, la fiabilité et l’expérience utilisateur dans un environnement où — selon le fournisseur — les outils traditionnels s’avèrent souvent insuffisants.

Ce lancement intervient à un moment où de plus en plus d’équipes d’ingénierie explorent ChatGPT comme canal d’acquisition et de conversion : non seulement pour répondre à des questions, mais aussi pour guider l’utilisateur vers des actions concrètes (achat, réservation, demande de démo ou complétion d’un parcours). Le problème, selon New Relic, est que quand une application “vit” à l’intérieur de ChatGPT, elle peut entrer dans une sorte de zone d’ombre : une expérience intégrée à la conversation où le développeur ne contrôle plus le conteneur ni n’a de garantie de disposer de la même télémetrie qu’en mode navigateur classique.

Le “point aveugle” du i-frame et les contraintes de sécurité

New Relic identifie ce défi technique dans un modèle très répandu : applications rendues dans un i-frame au sein de la conversation. Dans ces cas, l’équipe de développement peut perdre des signaux essentiels pour optimiser l’expérience utilisateur (UX) et la conversion : changements inattendus de mise en page (layout shifts), boutons qui ont l’air cliquables mais ne répondent pas, ou encore des abandons sans cause apparente.

À ce “point aveugle” viennent s’ajouter des couches habituelles de sécurisation : en-têtes de sécurité complexes, Content Security Policy (CSP), règles de sandbox du i-frame et limitations du stockage côté client. Ensemble, ces restrictions peuvent compliquer la collecte de données fiables ou comparables par les solutions standards de monitoring frontend.

De plus, New Relic introduit une particularité liée aux expériences générées ou médiatisées par l’Intelligence Artificielle : l’interface finale peut être affectée par des comportements “anormalement programmés”, comme des éléments UI qui semblent corrects mais échouent, des textes générés qui brisent un layout CSS méticuleusement conçu, ou encore des références que l’IA affiche comme si c’étaient des citations, alors que le backend de l’application n’a en réalité pas fourni ces données.

De l’observabilité “classique” aux métriques pour expériences avec l’IA

La vision commerciale est claire : si ChatGPT devient une nouvelle vitrine, les dysfonctionnements ne sont plus de simples incidents techniques, mais des frictions dans le tunnel de conversion. C’est pourquoi la société insiste sur le fait qu’avant de corriger un problème (par exemple, une “hallucination” de l’interface), il faut le détecter et le mesurer précisément.

Dans son annonce, New Relic affirme que son browser agent est conçu pour capter une télémetrie pertinente même dans ces contextes intégrés. Parmi les signaux mis en avant : la latence et la connectivité dans l’i-frame, les erreurs de scripts ou erreurs de syntaxe provoquées par des réponses dynamiques, ainsi que les événements enregistrés dans la console du navigateur.

Cependant, la nouveauté ne se limite pas à la “performance”. New Relic met l’accent sur la façon dont les utilisateurs interagissent avec l’application dans ChatGPT, en proposant d’instrumenter des “actions de valeur” (par exemple, un clic sur “acheter maintenant”, la complétion d’un formulaire ou la finalisation d’une étape cruciale). Sur cette base, l’entreprise suggère que les équipes puissent construire des tableaux de bord reliant qualité du rendu et taux de rebond ou de conversion, et monitorer des indicateurs spécifiquement conçus pour ce type d’expérience, comme un AI Render Success Rate ou des métriques “prompt-to-action”.

Ce que cela mesure précisément : frustration, stabilité visuelle et traçabilité de bout en bout

Ce dispositif s’inscrit dans la plateforme d’Intelligent Observability de New Relic et s’articule autour de quatre blocs fonctionnels :

Détection de la frustration utilisateur : signaux tels que rage clicks, clics sur des éléments provoquant des erreurs ou clics “muets” qui aident à repérer les points où l’utilisateur tente d’avancer mais l’interface ne répond pas comme prévu.
Suivi de l’instabilité visuelle : l’accent est mis sur le Cumulative Layout Shift (CLS), une métrique clé de la stabilité visuelle. Dans des scénarios où le contenu est “injecté” ou “streamé”, des déplacements inattendus peuvent provoquer frustration et erreurs d’interaction (ex : clics au mauvais endroit).
Insights跨-origine : visibilité sur le comportement lorsque l’application ne contrôle pas la fenêtre principale (top-level), un scénario courant dans les expériences intégrées.
Traçabilité de bout en bout : relier l’interaction de l’utilisateur dans l’i-frame aux services backend, afin de reconstituer le parcours complet d’une transaction.

L’enjeu est de changer de mentalité : mesurer non seulement si l’application “se charge rapidement”, mais aussi si elle se comporte comme prévu lorsque la couche d’Intelligence Artificielle participe au rendu, au texte ou à la composition finale.

Disponibilité et premiers pas

Selon New Relic, la capacité de monitorer les applications dans ChatGPT est déjà accessible sur leur plateforme. Pour commencer, il recommande un processus d’adoption classique : installer la dernière version du browser agent, définir des actions de valeur (les interactions critiques pour le business), puis instrumenter des événements personnalisés afin d’analyser les résultats et construire des dashboards.

En filigrane, on comprend que New Relic tente de conquérir un espace émergent : l’observabilité des expériences “hébergées par des tiers” (ici, dans ChatGPT), où l’expérience utilisateur dépend autant du code que du conteneur, des politiques de sécurité et de la présentation du contenu généré.

Questions fréquentes

Que signifie “monitoring pour les applications dans ChatGPT” ?

Cela consiste à déployer et mesurer la performance ainsi que l’expérience utilisateur d’applications intégrées dans ChatGPT (par exemple, dans un i-frame), lorsque le développeur ne contrôle pas le conteneur principal.

Pourquoi un i-frame complique-t-il la surveillance classique ?

Parce que l’application ne “possède” pas la fenêtre supérieure (top-level) et peut être soumise à des politiques de sécurité (CSP, sandbox) et des limitations de stockage/télémétrie qui réduisent la visibilité sur les erreurs, les interactions et les métriques UX.

Qu’est-ce que le CLS et pourquoi est-il important dans les expériences avec du contenu généré par IA ?

Le CLS (Cumulative Layout Shift) quantifie la stabilité visuelle et mesure la fréquence des déplacements inattendus du contenu. Si le contenu est inséré dynamiquement, ces changements de layout peuvent provoquer frustration et clics erronés.

Que devrait mesurer une entreprise souhaitant vendre dans ChatGPT ?

Au-delà de la latence et des erreurs, il convient de définir des “actions de valeur” (clics clés, formulaires remplis, conversions) et de les relier à des signaux de qualité de rendu, de stabilité visuelle et de friction (clics morts, erreurs, abandons).