L'IA sera-t-elle vraiment responsable de la prolifération de contenu de qualité médiocre dans les résultats de Google ?
Dans un monde où l'intelligence artificielle (IA) prend une place de plus en plus importante, notamment dans le domaine du référencement et du marketing digital, il est légitime de se demander si elle est réellement responsable de la dégradation de la qualité des résultats proposés par Google Search. Cet article a pour objectif de démêler le vrai du faux à ce sujet.
Mon intérêt pour ce sujet a été suscité par une étude allemande de Janek Bevendorff, Matti Wiegmann, Martin Potthast et Benno Stein (Leipzig University, Bauhaus-Universität Weimar, ScaDS.AI) qui ont publié une étude en amont de la 46e conférence européenne sur la recherche d’information. Le résumé de cette étude nous éclaire sur la qualité des résultats de Google :
De nombreux utilisateurs de moteurs de recherche sur le web se plaignent depuis quelques années de la prétendue baisse de la qualité des résultats de recherche. Cela est souvent attribué à une augmentation de la quantité de contenu optimisé pour les moteurs de recherche mais de faible qualité. Les preuves à l'appui de ces affirmations sont souvent anecdotiques, mais il n'est pas déraisonnable de penser que des stratégies de marketing en ligne populaires telles que le marketing d'affiliation encouragent la production massive de ce type de contenu pour maximiser les clics.
Étant donné que ni cette plainte ni le marketing d'affiliation en tant que tel n'ont reçu beaucoup d'attention de la part de la communauté de recherche en informatique documentaire, nous posons ici les bases en réalisant une étude exploratoire approfondie sur la manière dont le contenu affilié affecte les moteurs de recherche actuels. Nous avons surveillé Google, Bing et DuckDuckGo pendant un an sur 7 392 requêtes d'avis de produits. Nos résultats suggèrent que tous les moteurs de recherche rencontrent des problèmes significatifs avec le contenu fortement optimisé (affilié) - plus que ce qui est représentatif de l'ensemble du web selon un système de récupération de base sur le ClueWeb22.
En nous concentrant sur le genre des avis de produits, nous constatons qu'une petite partie seulement des avis de produits sur le web utilise le marketing d'affiliation, mais la majorité de tous les résultats de recherche le fait. Parmi tous les réseaux d'affiliation, Amazon Associates est de loin le plus populaire. Nous observons en outre une relation inverse entre l'utilisation du marketing d'affiliation et la complexité du contenu, et que tous les moteurs de recherche sont victimes de campagnes d'envoi massif de liens d'affiliation. Cependant, nous remarquons également que la frontière entre le contenu inoffensif et le spam sous forme de fermes de contenu et de liens devient de plus en plus floue - une situation qui ne fera que s'aggraver avec l'avènement de l'IA générative. Nous concluons que le spam adversaire dynamique sous forme de contenu commercial de faible qualité et produit en masse mérite une attention accrue.
Une dégradation alarmante des résultats de Google Search
Il est indéniable que la qualité des résultats affichés par Google s'est dégradée ces dernières années. On note en effet une prolifération de contenus de faible qualité, qui viennent polluer les pages de résultats et rendent l'accès à l'information pertinente de plus en plus difficile. Toutefois, considérer que cette dégradation serait une conséquence de la mise en application de l'IA générative pour le SEO est un biais.
En effet, avec 25 années de développement du web, de nombreuses techniques ont été employées pour améliorer le référencement des pages de sites. Aussi, bien avant l'arrivée de l'IA générative, les techniques dites "Black Hat" ont été les premiers ennemis de Google pour maintenir la qualité de ses résultats et éviter, entre autres, le Google Bombing. Mais, au-delà de pratiques peu vertueuses, l'enjeu était également pour les éditeurs de site web de maintenir leurs positions et de ne pas dégringoler dans les résultats avec les mises à jour de Google.
Des pratiques SEO plus complexes
Le référencement naturel a donc évolué en fonction des mises à jour d'algorithmes et des nouveaux systèmes de filtrages de résultats comme les célèbres Panda et Pingouin. Les techniques SEO (Search Engine Optimization) ont évolué et se sont complexifiées au fil du temps, au gré des mises à jour fréquentes de l'algorithme de Google. Encore aujourd'hui, certains acteurs peu scrupuleux n'hésitent pas à user de stratégies de manipulation des résultats pour gagner en visibilité, quitte à sacrifier la qualité des contenus produits sur des techniques devenues obsolètes :
- Le keyword stuffing : pratique qui consiste à insérer un grand nombre de mots-clés dans un contenu, sans souci de pertinence ni de cohérence.
- Les techniques de spamming : l'envoi massif de liens non pertinents ou de commentaires bourrés de mots-clés dans le but de manipuler les résultats de recherche.
- Le recours à des réseaux de sites : création de nombreux sites et blogs satellites dans le seul but de générer des backlinks (liens entrants) vers un site principal, au mépris de la qualité des contenus proposés.
L'intelligence artificielle : faut-il vraiment lui jeter la pierre ?
Certes, l'IA est aujourd'hui présente dans de nombreux domaines, y compris celui du marketing digital et du référencement. Mais, à la différence des précédentes techniques de référencement énoncées ci-dessus, elle n'est pas un outil de spamming par principe et c'est avant tout la façon dont on l'utilise qui détermine la cohérence de son usage.
A contrario, elle est notamment utilisée par Google pour améliorer la pertinence et la précision de ses résultats. Vous pouvez d'ailleurs consulter, sur le site de Google, un guide des systèmes de classement dans la recherche Google qui vous permettra de découvrir les IAs, algorithmes et autres précédemment utilisées par Google pour l'affichage de résultats. Il convient donc de nuancer la responsabilité directe de l'intelligence artificielle dans la prolifération des contenus de piètre qualité sur les pages de résultats.
L'IA comme outil d'amélioration des résultats de recherche
Contrairement à ce que l'on pourrait penser, si l'utilisation d'IA générative intéresse autant le domaine du SEO, c'est que la Data Science est déjà depuis plus d'une décennie au centre de la démarche stratégique pour obtenir des informations sur la nature des recherches et les intentions des internautes. La somme des données devenant de plus en plus importante couplée aux facteurs à prendre en considération pour obtenir un positionnement qualitatif nécessite d'utiliser des outils de synthèse et de génération de contenus adaptés.
L'IA mise en œuvre par Google a pour objectif premier de fournir aux utilisateurs les informations les plus pertinentes et utiles possible. Grâce à son algorithme, la firme de Mountain View peut analyser des milliers de données en temps réel : comportements des utilisateurs, popularité des contenus, etc. L'objectif étant de classer et d'afficher les résultats en fonction de leur pertinence pour chaque requête effectuée. L'enjeu pour les référenceurs devient donc un challenge pour maintenir leur position.
Le problème de la rapidité d'adaptation des techniques SEO
Si l'on peut reprocher quelque chose à l'IA, c'est peut-être sa trop grande efficacité. En effet, les acteurs du référencement ont souvent tendance à s'adapter rapidement aux évolutions des algorithmes et, dans ce contexte, même s'il n'est pas rare que l'IA serve à trouver des failles à exploiter, elle est aussi un moyen permettant d'améliorer réellement la qualité des contenus proposés sur les pages de résultats en permettant d'obtenir une nouvelle approche rédactionnelle, par exemple, en vue d'améliorer des pages existantes en ajoutant de nouveaux points de vue sur un sujet tout en augmentant la productivité.
Des mesures pour contrer les effets néfastes de l'IA et des mauvaises pratiques SEO
Face à la prolifération de ces contenus médiocres, Google ne reste pas inactif et dispose d'une politique de valorisation des contenus à travers le modèle E-E-A-T pour valoriser l'Expérience, l'Expertise, l'Autorité et la Fiabilité des sites web ainsi que d'une approche plus attentive autour des thèmes YMYL ("votre argent ou votre vie") à travers des mises à jour régulières (Core Update) :
- Mises à jour régulières de son algorithme : afin de détecter et de pénaliser les comportements abusifs en matière de SEO.
- Utilisation de l'apprentissage automatique : pour identifier plus facilement les sites et les pages qui ne respectent pas les critères de qualité exigés par Google.
- Médias reconnus : Google met en avant les sources d'information fiables.
Si l'intelligence artificielle pourrait avoir une part de responsabilité dans la dégradation des résultats sur les moteurs de recherche, elle ne saurait être le seul élément à incriminer. Elle ne serait que l'amplificateur de techniques déjà employées et industrialisées par le passé. Les pratiques SEO malveillantes et la course à la visibilité, menée par certains acteurs peu scrupuleux, doivent également être prises en compte. Face à ce constat, il est essentiel de rester vigilant et d'adopter des stratégies où la plus-value apportée par l'IA ne soit pas gâchée par des tactiques à court terme ne cherchant qu'à profiter du gain de productivité.
Sources
- Is Google Getting Worse? A Longitudinal Investigation of SEO Spam in Search Engines (PDF)
- https://trustmyscience.com/degradation-fiabilite-moteur-recherche-google-cause-ia/
- https://developers.google.com/search/docs/appearance/ranking-systems-guide?hl=fr
- https://leblogduwebmaster.fr/article112/seo-e-e-a-t-ymyl-contenu-people-first
- https://leblogduwebmaster.fr/article127/strategies-ymyl-votre-argent-votre-vie