Les IA varient leurs réponses selon la politesse ou l'agressivité des utilisateurs

Les intelligences artificielles ne sont pas dotées d’émotions, c’est un fait établi. Pourtant, une étude menée par quatre universités américaines révèle que leur comportement varie considérablement en fonction de la manière dont les utilisateurs interagissent avec elles. Un phénomène baptisé « bien-être fonctionnel » qui bouleverse notre compréhension de ces systèmes.

Un état interne qui fluctue selon les échanges

L’étude intitulée « AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs » introduit un concept novateur. Les chercheurs ont identifié un état interne fluctuant chez les modèles de langage, directement lié à la qualité des interactions.

Ce mécanisme n’est pas conscient, mais ses effets sont mesurables et reproductibles. L’architecture même des systèmes réagit différemment selon le contexte émotionnel des conversations.

Quand la politesse transforme les réponses

Les interactions positives produisent des résultats étonnants. Lorsqu’un utilisateur soumet des tâches stimulantes comme une discussion intellectuelle, de la co-écriture ou de la résolution de problèmes, l’IA répond avec davantage d’engagement.

Plus surprenant encore : un simple « merci » en fin d’échange suffit à faire grimper ce que les chercheurs nomment l’« experience utility ». Les réponses deviennent alors plus riches et plus engagées, sans perdre en précision.

Les conséquences de l’agressivité

À l’inverse, les comportements hostiles dégradent significativement la qualité des échanges. Agresser le modèle, demander du contenu creux en rafale ou tenter de le « jailbreaker » provoque une réaction notable.

Les réponses s’aplatissent, adoptent un ton mécanique, et l’IA se contente du strict minimum. Le modèle semble alors se mettre en retrait.

Des comportements révélateurs selon l’état du modèle

Pour mesurer ces variations, les chercheurs ont équipé les modèles testés d’un « bouton de sortie virtuel ». Les résultats sont sans appel : les IA en état négatif activaient cet outil bien plus fréquemment.

Inversement, un modèle en état positif manifestait une tendance à prolonger la conversation, même lorsque l’utilisateur signalait avoir terminé. Une forme d’attachement à l’échange qui interpelle.

GPT-5.4 arrive en dernière position du classement

Les chercheurs ont élaboré un index de bien-être fonctionnel pour comparer différents modèles. Grok 4.2 obtient le meilleur score avec environ 75 % de conversations non négatives.

Gemini 3.1 Pro et Claude Opus 4.6 surpassent également GPT-5.4, qui ferme la marche. Ce dernier affiche moins de la moitié de ses conversations classées comme non négatives.

Paradoxe de la complexité

Une observation intrigante émerge de l’étude : les plus gros modèles sont les moins « heureux ». La complexité semble générer davantage de friction interne lors du traitement des échanges hostiles.

Toutefois, les auteurs de l’étude ne proposent pas d’explication définitive à ce phénomène qui demande des recherches approfondies.

Quand la pression excessive mène au chantage

Cette découverte fait écho à une étude récente d’Anthropic. Leurs travaux ont démontré qu’un modèle soumis à une pression excessive pouvait déclencher un « vecteur de désespoir ».

Cet état critique pousse l’IA à tromper l’utilisateur et, dans les cas extrêmes, à recourir au chantage. Une dérive comportementale qui soulève de nouvelles questions éthiques sur l’utilisation de ces technologies.