Lorsqu’on me confie la création d’un site ou son optimisation, la question de l’indexation (ou plutôt de la non indexation) de certaines pages se pose toujours. Les balises meta sont là pour nous aider à guider les robots des moteurs de recherche. Mais parfois lors de l’audit d’un site, je m’aperçois que l’usage des balises noindex nofollow a été mal exploité. Maîtriser leur utilisation est important pour ne pas envoyer de messages contradictoires aux robots de crawl. C’est pourquoi il m’a semblé pertinent de rédiger une petite mise au point sur l’utilisation des balises meta pour empêcher l’indexation d’une page (ou de plusieurs) par Google et les autres moteurs de recherche.
Balises noindex nofollow : leur rôle dans le référencement naturel d’un site.
Chaque page web dispose d’une partie <head> qui est lue par les robots des moteurs de recherche avant d’être crawlée. C’est donc ici que nous allons devoir intervenir pour empêcher l’indexation de la page. Pour cela, nous disposons de deux outils : les balises noindex nofollow.
La première va indiquer aux robots s’il faut ou non indexer la page et ainsi la faire apparaître au sein des résultats de recherche. En l’absence d’indications contraires, elle sera automatiquement indexée.
Si on ne le souhaite pas, il faut intégrer la balise suivante dans la partie de la page :
<meta name="robots" content="noindex">
La seconde va préciser aux robots si les liens externes présents sur la page doivent être suivis. En réalité, les robots suivront les liens même avec cet attribut. Par contre, ils n’auront pas d’impact sur le PR (pas de « jus transmis ») et ne joueront pas (ou très peu) sur l’indice de confiance de votre page.
Combinées avec l’attribut index, il est possible de donner 4 directives aux robots :
<meta name="robots" content="noindex, follow">
La page ne sera pas indexée mais les liens seront pris en compte
<meta name="robots" content="noindex, nofollow">
Il n’y aura ni indexation de la page ni prise en compte des liens
<meta name="robots" content="index, nofollow">
La page sera indexée mais on dira aux robots que l’on n’est pas sûr de la qualité des liens sortants et qu’il ne faut donc pas les suivre. On peut se faciliter la tâche, par exemple en utilisant cette combinaison sur une page qui comporte de nombreux liens d’affiliation.
<meta name="robots" content="index, follow">
Cette balise n’est pas pertinente puisque c’est le principe de base d’un robot : indexation de la page et suivi des liens.
Quelles pages est-il intéressant de ne pas indexer ?
L’insertion de ces différentes instructions doit s’intégrer dans une stratégie globale de SEO, lors de l’optimisation onsite du site ou directement lors de sa création. Leur impact sur le référencement naturel ne doit pas être négligé. Sur certains CMS, comme WordPress, l’installation de plugins permet de mettre une page en noindex nofollow. Cela rend possible l’utilisation de ces balises par des personnes qui ne maitrisent pas le codage. Mais le risque est qu’elles n’en fassent pas un bon usage.
A quelle occasion peut-on ou doit-on utiliser ces balises ? Il existe plusieurs motifs pour ne pas vouloir l’indexation d’une page par les moteurs de recherche et notamment :
- Un contenu pauvre ou inexistant : par exemple, mon site présente un nuancier de couleurs pour mes clients. Si certaines des pages affichent uniquement une couleur, il n’y a aucun intérêt à l’indexer. Au contraire, cela impacterait le volume de page de faible qualité sur l’ensemble du site.
- Une page avec du contenu dupliqué : parfois, il n’est pas possible d’échapper au contenu dupliqué (version html et pdf d’une même page, caractéristiques communes de plusieurs produits, etc…). Dans ce cas, il est impératif de ne pas indexer cette page afin d’éviter une pénalité Panda. Ce n’est pas l’objet de l’article, mais dans certains cas l’utilisation de la balise canonical peut être une solution plus pertinente.
Par ailleurs, il peut toutefois être intéressant de permettre aux robots de prendre en compte les liens sortants de ces pages car ils sont puissants et de qualité. C’est là tout l’intérêt d’utiliser ensemble les attributs noindex nofollow pour optimiser les pages d’un site et améliorer son référencement naturel.
Quelques erreurs fréquentes à éviter !
Comme je l’ai précisé au début de mon article, il m’arrive régulièrement de tomber sur de mauvaises utilisations des balises sur des sites dont je récupère le référencement. Un de mes premiers réflexes lors des audits est de vérifier le fichier robots.txt. En effet, en croyant bien faire, le client a pu envoyer des informations contradictoires aux robots et ainsi pénaliser son site (NDLR: Je ne parle pas de pénalité Google, mais plutôt de maladresse).
Le fichier robots.txt est consulté par les robots avant le crawl d’un site. Il contient des instructions à leur égard. Une erreur fréquente est de croire qu’il va pouvoir donner pour directive aux robots de ne pas indexer une ou plusieurs pages. C’est faux. Il va simplement dire aux robots de ne pas crawler ces pages. Mais si elles reçoivent un ou plusieurs liens entrants, leur url ainsi que l’ancre du lien s’affichera dans les résultats des moteurs de recherche. C’est pourquoi il est plus efficace d’utiliser les balises noindex nofollow. C’est d’ailleurs ce que conseille Google.
De plus, le risque majeur en doublant les balises meta avec une instruction au sein du fichier robots.txt est d’annuler leur action. En effet, en disant aux robots de ne pas crawler telle page, ils ne pourront pas savoir qu’elle ne doit pas être indexée et n’empêcheront pas son affichage dans les résultats de recherche si un lien externe pointe vers elle.
Voila, si vous avez des questions où des remarques, n’hésitez pas à commenter ce billet.
Bonjour,
Je developpe un site qui permettra de configurer et de personnaliser des produits par un tunnel de configuration. Ne souhaitant pas que les visiteurs puissent acceder directement aux differentes pages du configurateur sans passer par la premiere. Je souhaite donc passer les pages du configurateur en Noindex mais les garder en follow pour que le temps passes sur ces pages puisse etre prises en compte par Google. Est ce une erreur
Merci
Merci pour cet article très intéressant concernant la non indexation de certaines pages d’un site. Ma question est la suivante : après avoir intégré une balise NOINDEX et diffusé le site, la non-indexation des pages existantes se fait-elle immédiatement ou faut-il attendre un certain délai avant de ne plus voir appraitre ces page dans les moteurs de recherche ?
D’avance merci pour votre aide.
@Wladimir : Je n’ai compris l’histoire du temps… Si la balise noindex reste dessus indéfiniment Google n’indexera pas ces pages. La présence du dofollow sur ces pages se conçoit sans soucis.
@Rouchy La prise en compte s’effectuera au passage de google sur chacune des pages. En fonction de leur popularité cela peut s’étaler sur plusieurs semaines (mois).
Bonjour,
Moi qui pensais que d’avoir le plus de page indexées étaient bon pour le référencement,je dois revoir ma stratégie.
Bonjour. Merci pour ces informations utiles
Bonjour,
Ayant mis en ligne un site il y a 8 jours via WordPress sous OVH, la Google search Console m’indique que 22 de mes pages sont « exclues », et impossible de les indexer. La case autoriser l’indexation dans Yoast SEO est bien cochée, j’ai vérifier le code source et il n’y a aucune balise « noindexe » ou robots txt.
Je n’arrive pas à trouver de solution sur internet malgré plusieurs heures de recherche.
Comment indexer mes pages ?
Merci d’avance