Chargement en cours

Intelligence artificielle : des hallucinations révélées dans 60 % des cas

evaluation_IA_laboratoire

Les assistants conversationnels basés sur l’intelligence artificielle impressionnent par leur fluidité. Pourtant, derrière cette apparente maîtrise se cache une faille inquiétante : leur propension à inventer des informations. Une nouvelle étude universitaire lève le voile sur l’ampleur de ce phénomène.

Un benchmark inédit pour mesurer la fiabilité de l’IA

Des chercheurs de l’EPFL, de l’ELLIS Institute de Tübingen et du Max Planck Institute for Intelligent Systems ont créé Halluhard. Ce dispositif d’évaluation inédit vise à quantifier précisément les hallucinations produites par les modèles d’intelligence artificielle.

Le protocole repose sur 950 questions réparties sur quatre domaines : le droit, la recherche scientifique, les recommandations médicales et la programmation. Chaque question fait l’objet de deux relances successives, simulant ainsi des échanges en trois temps.

Cette méthodologie permet d’évaluer non seulement la précision initiale des réponses, mais aussi leur cohérence dans la durée.

Des taux d’erreur alarmants même chez les leaders du marché

Les résultats sont sans appel. Le modèle Claude Opus 4.5, lorsqu’il dispose d’un accès à Internet, produit des hallucinations dans près de 30% des cas. Sans cette connexion, le taux explose à environ 60%.

GPT-5.2 Thinking, équipé de la recherche web, affiche quant à lui un taux d’hallucination de 38,2%. Ces chiffres démontrent que même les technologies les plus avancées restent vulnérables à ce phénomène.

L’étude révèle également des disparités significatives au sein d’une même famille de modèles, comme la gamme GPT-5. Les versions de plus grande taille s’avèrent globalement plus fiables que leurs déclinaisons compactes.

Le paradoxe du raisonnement avancé

Les capacités de raisonnement sophistiquées constituent un paradoxe. Si elles réduisent partiellement certaines erreurs, elles augmentent simultanément le risque d’inexactitudes.

La raison ? Ces modèles produisent des réponses plus longues et détaillées, multipliant les occasions de dérapage. Les versions open source spécialisées dans le raisonnement présentent même des performances inférieures aux versions classiques.

L’accès au web ne garantit pas la véracité

Contrairement aux idées reçues, la connexion à Internet ne résout pas le problème. L’étude démontre que l’accès au web n’assure pas la fiabilité des informations citées par les modèles.

Les IA peinent particulièrement sur les connaissances de niche. Face à ces questions pointues, elles préfèrent proposer des réponses approximatives plutôt que d’admettre leur ignorance.

La dégradation progressive des conversations

Plus un échange se prolonge, plus le risque d’hallucinations s’intensifie. Cette observation soulève des questions cruciales sur l’utilisation de ces outils dans des contextes professionnels exigeants.

Les domaines du droit ou de la médecine, qui requièrent une précision absolue, se trouvent particulièrement exposés à ces dérives algorithmiques.

Un défi majeur pour l’avenir de l’intelligence artificielle

Malgré les progrès technologiques constants, la fiabilité demeure le talon d’Achille de l’intelligence artificielle générative. Les chercheurs soulignent que ce problème constitue un obstacle majeur à l’adoption massive de ces technologies.

Cette étude intervient alors que les géants de la tech, Google et Microsoft en tête, proposent jusqu’à 600 000 dollars aux créateurs pour promouvoir leurs solutions d’IA.

Pendant ce temps, WhatsApp subit des pressions pour ouvrir sa plateforme aux intelligences artificielles concurrentes, tandis que Gemini teste un outil permettant de transférer des conversations depuis ChatGPT.

Il est spécialisé dans les outils d’IA appliqués au travail et à l’entrepreneuriat. Automatisation, no-code, assistants intelligents, IA pour les entreprises : il explore les solutions qui font gagner du temps et améliorent l’efficacité. Sa priorité : proposer des conseils pratiques, testés et réellement utiles.

Laisser un commentaire