Intelligence artificielle : fiabilité des recommandations marketing mise à mal par une étude
Alors que les entreprises investissent massivement pour surveiller leur présence dans les réponses générées par les outils d’intelligence artificielle, une nouvelle recherche vient bouleverser leurs certitudes. La cohérence de ces systèmes en matière de recommandations commerciales est bien plus faible qu’anticipé, soulevant des questions cruciales sur la fiabilité de ces technologies.
Une expérimentation d’envergure pour mesurer la cohérence des IA
Rand Fishkin, fondateur de SparkToro, a orchestré une étude sans précédent mobilisant 600 volontaires. L’objectif : déterminer si les intelligences artificielles génèrent des réponses suffisamment stables pour justifier un suivi marketing.
Le protocole expérimental s’est appuyé sur trois plateformes majeures : ChatGPT, Claude et l’IA développée par Google. Douze questions types ont été soumises, couvrant aussi bien des secteurs grand public que professionnels, avec des formulations tantôt précises, tantôt générales.
Chaque requête a été répétée entre 60 et 100 fois, générant au total 2 961 réponses analysées. Les chercheurs ont examiné systématiquement quelles marques apparaissaient, dans quel ordre et en quelle quantité.
Des résultats qui remettent en question la fiabilité des IA
Une variabilité presque totale des recommandations
Les conclusions sont sans appel. « Si vous demandez une centaine de fois à un outil d’IA des recommandations de marques/produits, presque chaque réponse sera unique de trois manières : la liste présentée, l’ordre des recommandations et le nombre d’éléments sur cette liste », affirme Rand Fishkin.
Avec ChatGPT, soumettre 100 fois la même question ne produit que 0,74 % de chances d’obtenir une liste identique de marques. La probabilité d’avoir les mêmes entreprises dans le même ordre tombe à 0,1 %.
Face à ce constat, le chercheur conseille pragmatiquement : « Si une réponse ne vous convient pas, ou si votre marque n’apparaît pas à l’endroit souhaité, n’hésitez pas à réessayer ».
Un fossé entre précision factuelle et recommandations commerciales
Paradoxalement, ces mêmes systèmes affichent des taux de fiabilité supérieurs à 90 % lorsqu’il s’agit de traiter des informations factuelles vérifiables.
« Je suis certain que des millions de personnes accordent la même confiance aux IA en matière de recommandations de produits, ignorant tout du processus de l’IA et de ses éventuelles incohérences », poursuit Rand Fishkin.
L’enjeu devient préoccupant au-delà des achats anodins comme une machine à café. Pour des requêtes vitales concernant par exemple le meilleur centre de cancérologie d’une région, les listes demeureraient tout aussi aléatoires.
La fréquence d’apparition comme nouveau baromètre
L’analyse révèle néanmoins une dimension exploitable. « Mon hypothèse initiale selon laquelle les listes de réponses des marques générées par l’IA sont tellement aléatoires que leur suivi est totalement inutile était fausse », explique Rand Fishkin.
Le véritable indicateur n’est pas la position occupée par une marque dans les résultats, mais sa fréquence d’apparition globale. Certaines entreprises émergent systématiquement, même si leur rang varie constamment.
Des exemples révélateurs
L’agence Smartsites s’est manifestée dans 85 des 95 réponses fournies par l’IA de Google concernant les consultants en marketing digital spécialisés dans le commerce en ligne.
De même, l’établissement City of Hope apparaît dans 97 % des réponses de ChatGPT pour les hôpitaux spécialisés en cancérologie sur la côte ouest américaine, bien qu’il ne figure en première position que minoritairement.
Cette visibilité récurrente traduit la place qu’occupe une marque dans l’univers de références du modèle d’apprentissage, plutôt qu’un positionnement préférentiel délibéré.
Le défi inédit des requêtes conversationnelles
L’effondrement des méthodes traditionnelles
Les techniques de référencement classiques reposent sur le suivi de mots-clés précis et la comparaison des volumes de recherche. Cette approche ne fonctionne pas avec les requêtes conversationnelles adressées aux intelligences artificielles.
« Les suggestions synthétiques sont-elles un bon indicateur de ce que les gens saisissent réellement dans les outils d’IA ? Et quelle est la diversité des suggestions utilisées ? » interroge le chercheur.
Il déplore que des milliers d’entreprises investissent des millions dans des outils de surveillance sans questionner ces fondamentaux.
Une créativité linguistique insoupçonnée
L’analyse des prompts rédigés librement par les utilisateurs révèle une diversité stupéfiante. « Sur 142 réponses, à peine deux suggestions se ressemblaient, même de loin », constate l’étude.
« Les suggestions de l’IA sont très différentes d’une recherche Google. Les gens ne se contentent pas de quelques mots-clés parmi les plus logiques ; ils font preuve de créativité, d’originalité et de précision », poursuit Rand Fishkin.
Une méthodologie développée par Carnegie Mellon a confirmé une similarité sémantique extrêmement faible entre les différentes formulations.
Une convergence malgré le chaos apparent
Malgré l’extraordinaire diversité linguistique observée, les systèmes d’intelligence artificielle parviennent à identifier l’intention sous-jacente des utilisateurs.
Certaines marques émergent dans 55 à 77 % des réponses, révélant l’existence d’un noyau relativement stable d’entreprises que les modèles associent fortement à des intentions de recherche spécifiques.
Cette convergence partielle suggère que les modèles linguistiques captent effectivement une dimension sémantique profonde, même si leur expression en surface demeure imprévisible.



Laisser un commentaire