Duplicate content

Début décembre, je faisais part sur Twitter de mon « léger » agacement vis-à-vis du duplicate content, et plus précisément sur le fait qu’après avoir fait supprimer les pages plagiaires, il est quasiment impossible de lever complètement la pénalité sur les pages originelles par Google, et par conséquent impossible pour celles-ci de retrouver leur position dans les serps. Ce tweet avait permis d’engager une discussion intéressante avec d’autres professionnels du SEO. Cela m’a également donné l’occasion de tester l’outil Killduplicate pour surveiller mes sites susceptibles d’être dupliqués. 2 mois après, je prends le temps de faire un petit retour sur ce que je considère comme un des fléaux du SEO : le duplicate content.

2 types de contenus dupliqués

Dans cet article, nous allons traiter uniquement du duplicate content d’origine externe. Il se caractérise par le fait que tout ou partie du texte de votre page se retrouve sur un autre site internet. Cela peut résulter d’un plagiat pur et simple, mais être aussi la conséquence de la mise en place d’un flux rss, de l’utilisation d’une balise iframe, etc.

Mais il existe aussi du contenu dupliqué interne. Parmi les exemples les plus courants, on peut citer la page d’accueil qui est susceptible d’avoir plusieurs adresses comme www.monsite.fr mais aussi www.monsite.fr/index.php, des contenus identiques présents dans le footer, etc. Pour corriger ce contenu dupliqué interne, il est possible d’effectuer des redirections 301 ou d’utiliser une balise canonicale selon la situation rencontrée. Mais ce n’est pas le propos de cet article. Aujourd’hui, nous allons nous concentrer sur le duplicate content d’origine externe.

Une incidence directe sur le positionnement des pages dupliquées

Retrouver son texte sur une autre page n’est pas agréable, que vous l’ayez écrit vous-même ou que vous l’ayez acheté. C’est un investissement dont d’autres personnes profitent illégitimement. Mais au-delà de cette malhonnêteté intellectuelle, le problème, c’est que les robots de Google ne vont privilégier que l’une des pages avec le même contenu, et pas forcément celle qui a été mise en ligne la première. Il suffit que le site qui copie votre contenu ait de meilleurs metrics, que son éditeur ait joué sur les dates de publication, etc. Bref, vous l’aurez compris, il n’est pas rare de voir la page légitime sortir de la serp au profit de la page plagiée.

Il existe des solutions pour faire supprimer ce contenu « pirate ». Parfois, il suffit simplement de contacter le propriétaire du site ou son hébergeur. D’autres fois, il faut adresser un formulaire DMCA à Google en vue de faire désindexer les contenus à l’origine du duplicate content. Mais une fois cette procédure aboutie, rien ne vous garantit que votre contenu va retrouver, sinon sa place précédente dans la serp, au moins un positionnement plus satisfaisant que celui où il était descendu.
En pratique, on s’est rendu compte qu’il fallait le plus souvent modifier l’url et retravailler le contenu. Résultat : encore un investissement en temps et en argent pour un contenu qui avait déjà fait l’objet d’un tel engagement. Il y a de quoi être « légèrement » agacé. Pour l’instant, pas de réelle réponse de Google sur ce point…

Quelle solution pour éviter le duplicate content ?

En ce qui concerne le contenu dupliqué via une balise iframe, il est possible de mettre en place des scripts empêchant cette pratique. D’ailleurs, KillDuplicate peut vous le générer automatiquement. Il ne vous restera plus qu’à faire un copier-coller. Mais on va revenir plus en détails ci-dessous sur les fonctionnalités de cet outil.

Empêcher le duplicate content est impossible. Il existera toujours des personnes peu scrupuleuses qui préfèreront utiliser ce système pour des profits à court terme. La seule solution est donc une veille active pour déceler rapidement le contenu dupliqué et intervenir avant qu’il soit mieux indexé que la page originelle. C’est là qu’intervient KillDuplicate. Il permet de scanner vos sites et de repérer les pages reproduisant tout ou partie de votre contenu. Il vous permet alors d’agir au cas par cas : considérer que ce n’est pas du duplicate content (flux rss, phrase standard, lien vers votre site, etc.) ou engager une procédure pour le retrait de ce contenu dupliqué (mail au propriétaire, à l’hébergeur ou plainte DMCA).

Concrètement, vous rentrez l’url de votre site dans l’outil développé par l’équipe de SEO Hackers afin de faire apparaitre le sitemap de ce dernier. Vous pouvez aussi entrer manuellement les pages que vous désirez scanner ou utiliser une recherche google pour ne faire ressortir que les pages indexées. Vous pouvez ensuite choisir les pages qui seront soumises à l’analyse du logiciel. Une fois le scan lancé, vous découvrirez l’étendue des dégâts !

Bien que l’analyse du contenu soit automatisée, KillDuplicate vous permet un traitement au cas par cas de chaque résultat. Vous pouvez ainsi estimer que certaines pages ne dupliquent pas réellement votre contenu. Vous pouvez décider de n’agir qu’à partir d’un certain seuil de duplicate en filtrant vos résultats.

Lorsque vous avez identifié du contenu dupliqué, KillDuplicate vous permet de réagir directement en proposant 4 solutions :

  • envoi d’un mail au propriétaire ;
  • envoi d’un mail à l’hébergeur ;
  • envoi d’une plainte DMCA ;
  • mise en place de solutions automatiques (par exemple, un script contre les iframes qu’il suffit de copier-coller).

L’envoi du mail ne se fait pas automatiquement depuis l’application. KillDuplicate génère un modèle de texte, vous donne les adresses mail ou le lien vers le formulaire de contact. Vous pouvez lier votre boite de messagerie pour que celle-ci s’ouvre automatiquement. Sinon vous faites un simple copier-coller et modifiez, si vous le souhaitez, le texte du mail. Les modèles sont précis, clairs et concis. Bref tout ce qu’on aime.

Bien entendu, si je vous parle de KillDuplicate, c’est que j’ai personnellement testé leur outil pour surveiller mes sites mais aussi demandé la désindexation de certaines pages via une plainte DMCA. Les pages délictueuses ont bien été supprimées. Reste malheureusement plus qu’à retrousser les manches pour retrouver les positions d’origine…