Le contenu dupliqué ou duplicate content est un paramètre extrêmement important qu’il ne faut pas négliger afin d’optimiser son référencement ou simplement pour espérer que son site soit référençable. Dès lors qu’un texte est publié sur au moins deux pages internet distinctes, il s’agit de contenu dupliqué. Cela peut concerner deux pages d’un même site. On parle alors de contenu dupliqué interne. Lorsque le même texte apparaît sur deux pages de deux sites différents, on est alors face à du contenu dupliqué externe. Internet regorge d’outils en ligne, comme Positeo, Plagium ou encore Plagiarism pour vérifier que vos textes ne sont pas repris volontairement ou non. On pourra aussi parler de vol de contenu (d’où l’image en haut de cet article… Un charlot cambrioleur 😉 qui illustre mon coup de gueule plus bas).
Selon le type de contenu dupliqué, les réactions ne doivent pas être les mêmes. Une seule chose est sure : il faut l’éviter au maximum au risque de voir sa ou ses pages rétrogradées dans les résultats de Google.
Le contenu dupliqué interne : balise canonical et redirection 301
Si les robots de Google repèrent le même texte sur des pages différentes de votre site, l’une d’entre elles sera « aléatoirement » choisie pour être référencée mais ne figurera pas parmi les premiers résultats de recherche.
Vous pensez ne pas être concerné pour votre site ?
Méfiez-vous : le contenu dupliqué se cache là où on ne l’attend pas. Etes-vous sûr, par exemple, que votre page d’accueil ne possède pas plusieurs url ? Essayez l’adresse suivante : www.monsite.fr/index.php. Ce n’est pas votre page d’accueil qui s’affiche ? Dans ce cas, la solution la plus simple est d’effectuer une redirection permanente ou redirection 301. Grâce à ce bout de code, les robots sauront qu’il s’agit de la même page.
La balise canonical est une autre solution lorsque vous devez publier le même contenu sur deux pages différentes de votre site. Vous devez la faire apparaître entre les balises « Head » de la page dupliquée. Pour ne pas commettre d’erreurs lors de l’insertion de ce code, je vous conseille d’aller faire un tour sur le blog tenu par Google pour les webmasters. Les erreurs les plus fréquentes y sont répertoriées.
Les utilisateurs de wordpress doivent être particulièrement vigileants. En effet le plus célèbre des CMS est une véritable machine à créer du contenu dupliqué. Un article récemment posté qui figure en première page de votre site, que vous avez classé dans deux rubriques complémentaires et auquel vous avez attribué 3 mots clés… C’est un total de 7 pages contenant le même texte à l’intérieur de votre propre site. Multipliez cela par le nombre d’articles et vous prendrez conscience de l’ampleur des dégâts…
Pour limiter cela sur wordpress, le choix du thème est important, je conseille toujours un thème qui utilise « l’extrait ». Une configuration optimale du « No-index » des pages d’archives et de mots clés et un choix de catégorie unique permet d’éradiquer à quasi 100% le contenu dupliqué interne.
Enfin, faites également attention à vos balises « meta description » qui peuvent être considérées comme du contenu dupliqué. Cette balise doit inciter l’internaute à cliquer pour venir lire votre page. Il n’est pas judicieux de la remplir avec un copié/collé de l’introduction de l’article.
Le contenu dupliqué externe : agir selon l’auteur de la reprise
En cas de reprise de votre texte sur un autre site, les deux pages seront déclassées par Google, faute pour le moteur de recherche de pouvoir reconnaître l’original de la copie. Je pense également que le poids du site à une influence certaine. En effet, si vous copiez une page de wikipédia par exemple, il est fort peu probable que la page wikipédia soit déclassée. La votre par contre le sera.
D’autres pensent qu’il y aurait une prime à la fraîcheur… Le premier qui poste le texte devrait être l’auteur d’origine et le contenu copié serait posté avec une date ultérieure. Difficile à maîtriser notamment pour de l’information d’actualité postée à quelques minutes d’intervalle.
Il existe deux sortes de contenu dupliqué externe : soit un site reprend vos articles dans le cadre d’un partenariat que vous avez conclu, soit un site tiers recopie vos articles sans votre accord.
Vous vous en doutez : la réaction que je préconise n’est pas la même selon le cas de figure.
Dans le cas d’un accord, vous pouvez communiquer au site partenaire une version allégée de votre texte, mais cela implique de le retravailler. Vous pouvez également lui demander de mettre un lien de redirection vers la page originale à la fin de l’article. Par ailleurs, il me semble important que vous exigiez de vos auteurs qu’ils vous remettent seulement des contenus uniques et non des textes qu’ils ont publiés sur leur propre site ou qu’ils ont envoyés à d’autres sites.
Enfin comme je vous l’ai expliqué dans mes précédents articles, produire du contenu demande un véritable engagement, notamment pour votre blog d’entreprise, qui doit améliorer considérablement votre référencement naturel. Néanmoins, si vous republiez ne serait-ce qu’un extrait de vos articles sur Facebook ou Linkedin ou encore scoop.it vous pénalisez vous même votre site ! (Je vous parlais plus haut de la notion de « poids de site ». Pensez-vous que votre blog fait le poids par rapport à Facebook ou Linkedin ? )
Enfin, si la reprise de vos articles est faite sans votre accord, envisagez une solution amiable dans un premier temps. Si vous n’obtenez aucun résultat, vous pouvez déposer une plainte DMCA et la page sera retirée des résultats de recherche. La solution ultime mais également la plus onéreuse sera de faire appel à un avocat qui se chargera de faire constater par un huissier ou un agent assermenté le plagiat et engagera des poursuites.
Le coup de gueule au sujet du vol de contenu
Les soi disant professionnels du web qui sont en fait des professionnels du plagiat
Notre agence web travaille depuis plus de 2 ans maintenant sur le développement d’un site portail sur l’univers du luxe. C’est un gros site de contenu animé par une vingtaine d’auteurs qui se démènent chaque jour pour poster des articles de qualité et largement détaillés.
Nos articles ont quelques fois été copiés et republiés sur d’autres sites et bien souvent par simple ignorance de la part du site en question. Un simple mail ayant suffit à ce que le contenu copié soit retiré. Mais alors que faire lorsque cela est fait volontairement par une soi disant agence internet qui utilise 100% de contenu volé sur le web pour fabriquer un nid à pub.
L’agence web voleuse de contenu sur son site nid à pub (tounes24.com Edit de novembre 2015 : Le site est fermé) ne prend même pas la peine de répondre aux mails. Nous avons donc engagé une procédure de dénonciation sur le site de chillings effect. En creusant même un peu, il se trouve que le contenu même du site de l’agence web est une copie… Sans commentaire….
Un bel état d’esprit vous ne trouvez pas ? Et ça donne envie de confier la réalisation de son projet à une telle agence.
Un petit coup de main en partageant cet article et un message de soutien nous fera du bien ! 😉
Je vous propose de poursuivre la lecture sur le contenu dupliqué avec ces excellentes sources :
[…] Le contenu dupliqué ou "duplicate content" expliqué. Comment lutter contre, et de quelle manière combattre le vol de contenu. […]
Je comprends tout à fait votre coup de gueule ! Comme il est frustrant de voir que certains n’hésitent pas à se servir et s’approprier le contenu d’autrui. Ça n’est ni plus ni moins que du vol à l’étalage selon moi. Il n’est pourtant pas interdit de s’inspirer d’autres articles (qui ne l’a pas fait ?), mais il est important alors de citer l’auteur et de proposer un lien vers l’article en question. Je pense que certaines personnes se sentent dépassées par leur travail de production de contenu et, face à leurs obligations de publications, se résignent à piocher chez d’autres blogueurs, en se disant que, de toutes façons, le web est vaste et personne ne le remarquera !
Bon courage pour la suite !
Merci pour ces rappels sur le duplicate content… En effet, il se cache parfois à des endroits sous-estimés !
[…] Le contenu dupliqué ou duplicate content est un paramètre extrêmement important qu’il ne faut pas négliger afin d’optimiser son référencement ou simplement pour espérer que son site soit référençable. Dès lors qu’un texte est publié sur au moins deux pages internet distinctes, il s’agit de contenu dupliqué. Cela peut concerner deux pages d’un même site. On parle alors de contenu dupliqué interne. Lorsque le même texte apparaît sur deux pages de deux sites différents, on est alors face à du contenu dupliqué externe. Internet regorge d’outils en ligne, comme Positeo,Plagium ou encore Plagiarism pour vérifier que vos textes ne sont pas repris volontairement ou non. On pourra aussi parler devol de contenu (d’où l’image en haut de cet article… Un charlot cambrioleur qui illustre mon coup de gueule plus bas). […]
Bonjour Christophe,
Le duplicate content est une véritable plaie, tout autant que que le vol de contenu ou d’image, j’ai souvenir d’une anecdote de mon beau frère qui c’était fait volé lui aussi un article complet un copié/collé pur et dur il m’avait alors expliqué comment parer au problème car l’idiot qui avait volé l »article en question avait également pris soin de joindre l’image provenant du site dans son copié/collé mais un petit bout de code das le fichier .htaccess bloquait l’image pour en afficher une bien explicite….
Il y a vraiment des gens sans gène et on le constate aussi chez certains « professionnels » du Web….
[…] Le contenu dupliqué ou duplicate content est un paramètre extrêmement important qu’il ne faut pas négliger afin d’optimiser son référencement ou simplement pour espérer que son site soit référençable. Dès lors qu’un texte est publié sur au moins deux pages internet distinctes, il s’agit de contenu dupliqué. Cela peut concerner deux pages d’un même site. On parle alors de contenu dupliqué interne. Lorsque le même texte apparaît sur deux pages de deux sites différents, on est alors face à du contenu dupliqué externe. Internet regorge d’outils en ligne, comme Positeo, Plagium ou encore Plagiarism pour vérifier que vos textes ne sont pas repris volontairement ou non. On pourra aussi parler de vol de contenu (d’où l’image en haut de cet article… Un charlot cambrioleur qui illustre mon coup de gueule plus bas).Selon le type de contenu dupliqué, les réactions ne doivent pas être les mêmes. Une seule chose est sure : il faut l’éviter au maximum au risque de voir sa ou ses pages rétrogradées dans les résultats de Google.LE CONTENU DUPLIQUÉ INTERNE : BALISE CANONICAL ET REDIRECTION 301Si les robots de Google repèrent le même texte sur des pages différentes de votre site, l’une d’entre elles sera « aléatoirement » choisie pour être référencée mais ne figurera pas parmi les premiers résultats de recherche.Vous pensez ne pas être concerné pour votre site ? […]
[…] Le contenu dupliqué ou duplicate content est un paramètre extrêmement important qu’il ne faut pas négliger afin d’optimiser son référencement ou simplement pour espérer que son site soit référençable. Dès lors qu’un texte est publié sur au moins deux pages internet distinctes, il s’agit de contenu dupliqué. Cela peut concerner deux pages d’un même site. On parle alors de contenu dupliqué interne. Lorsque le même texte apparaît sur deux pages de deux sites différents, on est alors face à du contenu dupliqué externe. Internet regorge d’outils en ligne, comme Positeo, Plagium ou encore Plagiarism pour vérifier que vos textes ne sont pas repris volontairement ou non. On pourra aussi parler de vol de contenu (d’où l’image en haut de cet article… Un charlot cambrioleur qui illustre mon coup de gueule plus bas). Selon le type de contenu dupliqué, les réactions ne doivent pas être les mêmes. Une seule chose est sure : il faut l’éviter au maximum au risque de voir sa ou ses pages rétrogradées dans les résultats de Google. LE CONTENU DUPLIQUÉ INTERNE : BALISE CANONICAL ET REDIRECTION 301Si les robots de Google repèrent le même texte sur des pages différentes de votre site, l’une d’entre elles sera « aléatoirement » choisie pour être référencée mais ne figurera pas parmi les premiers résultats de recherche. Vous pensez ne pas être concerné pour votre site ? […]
[…] Le contenu dupliqué ou duplicate content est un paramètre extrêmement important qu’il ne faut pas négliger afin d’optimiser son référencement ou simplement pour espérer que son site soit référençable. Dès lors qu’un texte est publié sur au moins deux pages internet distinctes, il s’agit de contenu dupliqué. […]
Bonjour Christophe,
Rien à ajouter à votre article. Le contenu dupliqué est vraiment une plaie qu’il faut tous combattre corps et âme. Il faut savoir respecter le travail des autres. Copier une phrase ou deux, peut être compris : c’est une citation.
Mais quand on va jusqu’à copier tout un article, ça c’est du vol et mérite d’être sanctionné fort.
Bien amicalement,
Sié
Bonjour,
Merci pour cette synthèse très claire.
J’ai une petite question néanmoins : à partir de quel nombre de caractères est considéré un contenu dupliqué?
J’ai 2 exemples pour illustrer cette question:
1- j’ai sur mon site en page d’accueil, des onglets avec dans chacun un début d’article et un lien « En savoir plus » vers une page avec la totalité de l’article. Ce « début d’article » constituerait un doublon entre ma page d’accueil et la page de l’article. Faut-il réduire le début d’article à 50 caractères (par exemple)?
2- certains sites d’analyse SEO répertorient nos sites sans qu’on leur demande quoi que ce soit et reprennent le contenu des balises h1, h2 … Faut-il leur demander gentiment de supprimer le site de leur base de données?
Merci d’avance pour vos éclairages.
Xavier
Bonjour Xavier,
On ne peut pas parler de nombre de caractères, mais plutôt de pourcentage. Je pense qu’en dessous de 30% on navigue en dessous du « radar ».
Ensuite, vos 2 demandes sont différentes :
L’une concerne le contenu dupliqué interne. Celui-ci est aussi pénalisant que le contenu externe (votre 2ème point). Le contenu dupliqué interne est facilement corrigible. Vous pourriez par exemple écrire un résumé unique sur la Home de votre site qui renvoie vers vos articles.
Pour le contenu dupliqué externe, en revanche c’est bien plus compliqué… Quelques balises reprises ici ou là ne seront pas (forcément) pénalisantes.