L’outil de transcription automatique Whisper, lancé en septembre par OpenAI, a généré de l’inquiétude parmi les professionnels de la santé en raison de sa tendance à introduire des « hallucinations » dans les textes transcrits. Bien que cette technologie en open source ait été conçue pour transcrire des conversations dans plusieurs langues, plusieurs ingénieurs, chercheurs et cliniciens ont détecté des problèmes de précision dans le contenu généré, ce qui met en doute sa fiabilité dans des environnements critiques comme les hôpitaux.
Avec plus de 30 000 médecins et 40 systèmes de santé utilisant Whisper pour enregistrer des réunions et des consultations avec des patients, les conséquences de ces erreurs peuvent être significatives. Bien que Whisper ait été entraîné avec plus de 680 000 heures de données audio recueillies sur Internet, des études récentes indiquent que les « hallucinations » dans ses transcriptions sont fréquentes. Un chercheur a trouvé des distorsions dans 8 transcriptions sur 10; un autre, après avoir analysé plus de 100 heures de texte généré, a détecté que la moitié contenait des informations erronées; et un développeur a découvert des problèmes dans pratiquement la totalité de ses 26 000 transcriptions.
En quoi consistent les hallucinations de Whisper?
Les dites « hallucinations » de Whisper incluent des phrases violentes ou racistes jusqu’à des maladies inventées et des expressions dénuées de sens qui apparaissent pendant les silences dans les enregistrements. En outre, dans certaines transcriptions, le système a inséré des phrases typiques de vidéos sur YouTube, comme « Merci de nous regarder ». Cette tendance est plus commune dans les chatbots, mais elle est inhabituelle dans des outils de transcription qui sont censés reproduire fidèlement l’audio original.
Ces problèmes avec Whisper ont conduit certains hôpitaux à reconsidérer son utilisation dans des contextes critiques. OpenAI elle-même a remercié les chercheurs pour avoir partagé leurs découvertes et a annoncé qu’elle continuerait à travailler pour améliorer la précision du modèle, en particulier pour réduire les hallucinations. De plus, elle a souligné que l’outil ne doit pas être utilisé dans des situations où les décisions sont à haut risque.
Un appel à la prudence dans l’adoption de l’IA en santé
Cet incident avec Whisper a mis en lumière les défis de l’application de l’intelligence artificielle dans le domaine de la santé, en particulier lorsque la précision est essentielle pour la sécurité des patients. Avec les progrès de l’IA, la communauté médicale insiste sur la nécessité de soumettre ces modèles à des tests rigoureux avant de les mettre en œuvre dans des environnements à haute responsabilité, comme les hôpitaux.
Alors qu’OpenAI continue d’améliorer sa technologie, des professionnels de la santé, des ingénieurs et des centres de recherche continuent d’évaluer l’impact de Whisper et d’autres systèmes d’IA dans le secteur, soulignant l’importance de garantir la fiabilité de ces outils dans un domaine aussi sensible que les soins médicaux.