Duplicate Content : le site en production d’NRJ.fr est indexé dans Google

Le site d’NRJ.fr est actuellement partiellement présent en double sur internet et plus particulièrement et dangereusement dans l’index de Google. Plusieurs versions de sites en production sont actuellement indexer par Google. Ce qui ressemble à une boulette pourrait coûter cher au référencement du site NRJ.fr. 12 600 pages sont indexées pour le site http://prod4-nrjfrv3.integra.fr/. Certaines de ces pages sont des doublons du site NRJ.fr. Le duplicate content généré par le site en production pourrait générer des pénalités au site nrj.fr : des liens vers le site nrj.fr sont en effet présents sur le domaine http://prod4-nrjfrv3.integra.fr/. Le sous-domaine prod4-nrjfrv3 n’est pas le seul site en production d’NRJ.fr présent dans l’index de google on retrouve également prod1-nrjfrv3.integra.fr et peut-être d’autres, je n’ai pas fouillé.

En remarquant ce qui est pour moi une erreur, j’ai également remarqué la génération de duplicate content plus que partiel par le site d’NRJ.fr pour les pages : http://www.nrj.fr/actus-3965/actu-music-524/article/298969-katy-perry-en-bikini-au-bahamas-.html et http://www.nrj.fr/artistes-509/fiches-artistes-522/artiste/actu/561-katy-perry.html?actu_id=298969_katy-perry-en-bikini-au-bahamas- sont en effet indexées par google pour un contenu quasi-similaire.

duplicate nrj.fr parametre

 

Mon but en publiant cet article n’est pas d’accabler les équipes responsables du site nrj.fr . La gestion d’un tel site avec des contraintes imposées sans nul doute par des commerciaux ou des journalistes doivent être un vrai problème au quotidien pour eux. Le problème sera sans nul doute d’ailleurs résolu dans les prochaines heures, même si la désindexation de 12 000 pourrait prendre un peu de temps.
Pour moi le problème n’est pas celui du site nrj.fr mais celui de google : je vous laisse observer les deux résultats suivants ceux du site NRJ.fr . La page de dailymotion et la page de msn sont également identiques !
Après la sortie de Pengouin 2.0, qui vise les sites possédant des liens douteux, et des différentes versions de Panda, qui vise les sites au contenu de pauvre, l je ne m’attendais pas à des résultats de ce genre. Les équipes anti-spam ont encore du travail!
Si vous utilisez WordPress, je vous invite à lire mon billet sur le duplicate content généré par WP.

Publié dans SEO
Un commentaire sur “Duplicate Content : le site en production d’NRJ.fr est indexé dans Google
  1. Bonsoir,

    Je suis le responsable de eNRJ, l’entité responsable des sites internet de NRJ Group, dont NRJ.FR.
    Merci pour cette alerte, la situation résulte de deux facteurs :
    – Un bug que nous venons de découvrir qui a eu pour effet de faire disparaître la balise canonical
    – Des vhosts (server aliases) mis en place par notre hébergeur (integra) sur des anciennes version du site, qui sont alimenté via la base des nouveaux articles.

    Outre le fait que cela impacte effectivement notre SEO, on ne peut que déplorer que la « pollution » des SERP …

    Tout va être mis en oeuvre (robots.txt, Webmaster tools, et rétablissement du canonical) pour faire disparaître au plus vite cette situation.

    Un tout grand merci pour votre article et félicitation pour la qualité de votre blog !

quand j’aurai le temps

  • les filtres wordpress
  • plugin wordpress et enregistrement de données
  • les wordpress custom post type
  • la bdd d'un blog wordpress
  • la balise more de wp
  • personnaliser une galerie wp
  • gérer les longueurs des extraits de wp
  • les animations css3
  • le memento symphony2
  • le squelette d'une page html5
  • liste sur plusieurs colonnes
  • le responsive design
  • exemple d'un jeu basique en html5
  • la réplication des bases de données
  • mettre en place une architecture en silo avec wp
  • parser un fichier xml (donc un rss) avec php5
  • mettre en place lightbox sans plugin
  • améliorer les performances de son wp
  • ajouter un bouton à l'éditeur de texte de wp
  • ...