IA des chatbots : fiabilité en chute libre dès le second échange
Les assistants virtuels dopés à l’intelligence artificielle séduisent des millions d’utilisateurs quotidiens. Pourtant, une fragilité majeure vient d’être mise au jour par une étude d’envergure. Plus on discute avec eux, moins ils sont fiables.
Une chute spectaculaire de performance révélée par l’analyse
Une enquête menée conjointement par Microsoft Research et Salesforce a passé au crible plus de 200 000 conversations. Les résultats sont sans appel : les modèles les plus performants s’effondrent littéralement au fil des échanges.
Alors que GPT-4.1 et Gemini 2.5 Pro affichent un taux de réussite de 90% sur une question isolée, ce score dégringole à 65% lorsque la discussion se prolonge. La dégradation commence dès le second échange, avec une perte de 25 points de performance.
Tous les modèles touchés par le phénomène d’hallucination
L’étude a examiné les géants du secteur : GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, DeepSeek R1, OpenAI o3, ainsi que les versions Llama 4 et Llama 3.1-8B.
Le constat est universel. « Du plus petit modèle ouvert Llama 3.1-8B aux plus gros calibres comme Gemini 2.5 Pro », tous subissent ce déclin. Ces hallucinations, terme technique désignant les divagations des IA, explosent de 112% dans les conversations complexes.
Des réponses de plus en plus longues et délirantes
Un autre phénomène aggrave la situation : les réponses s’allongent de 20% à 300% au fil de la discussion. « Plus le chatbot écrit, plus il hallucine », confirment les chercheurs.
Paradoxalement, la compétence intrinsèque de l’IA ne baisse que de 15%. C’est l’instabilité croissante des réponses qui rend l’outil inutilisable lorsque la précision devient cruciale.
Deux comportements problématiques identifiés
L’anticipation prématurée
Les modèles tentent de répondre avant même que l’utilisateur n’ait terminé d’exposer sa demande. Cette précipitation génère des réponses précoces souvent fausses ou totalement hors sujet.
L’ancrage sur l’erreur initiale
Plus grave encore, les systèmes utilisent leur première réponse comme fondation pour tous les échanges suivants. Si cette base est erronée, l’IA s’y accroche obstinément, accumulant les incohérences au fil de la conversation.
Des conséquences concrètes pour les utilisateurs professionnels
Ces défaillances posent un problème majeur pour les usages professionnels exigeants : rédaction de documents stratégiques, développement informatique, aide à la prise de décision.
Le cas de Marcel Bucher, professeur à l’Université de Cologne, illustre dramatiquement ces risques. Il a perdu deux ans de travaux suite à une manipulation hasardeuse sur ChatGPT.
Les entreprises qui intègrent ces technologies dans leurs processus prennent un risque considérable dès qu’une conversation dépasse quelques interactions. Un constat troublant alors que les géants technologiques investissent des centaines de milliards dans ces outils.
Comment utiliser efficacement ces assistants virtuels
Face à cette fragilité structurelle, les experts recommandent une approche prudente. Privilégiez des questions courtes et précises, formulées en une seule demande.
Évitez les conversations prolongées qui multiplient les risques de dérives. Ces chatbots excellent comme assistants ponctuels, mais perdent rapidement en fiabilité dans des échanges complexes.
Malgré les promesses marketing des leaders du secteur – OpenAI, Google, Microsoft, Meta – le produit livré aux utilisateurs reste fondamentalement fragile.



Laisser un commentaire