Comment utiliser les balises meta pour empêcher l’indexation d’une page web ?

Accueil » Comment utiliser les balises meta pour empêcher l’indexation d’une page web ?

Lorsqu’on me confie la création d’un site ou son optimisation, la question de l’indexation (ou plutôt de la non indexation) de certaines pages se pose toujours. Les balises meta sont là pour nous aider à guider les robots des moteurs de recherche. Mais parfois lors de l’audit d’un site, je m’aperçois que l’usage des balises noindex nofollow a été mal exploité. Maîtriser leur utilisation est important pour ne pas envoyer de messages contradictoires aux robots de crawl. C’est pourquoi il m’a semblé pertinent de rédiger une petite mise au point sur l’utilisation des balises meta pour empêcher l’indexation d’une page (ou de plusieurs) par Google et les autres moteurs de recherche.

Balises noindex nofollow : leur rôle dans le référencement naturel d’un site.

Chaque page web dispose d’une partie <head> qui est lue par les robots des moteurs de recherche avant d’être crawlée. C’est donc ici que nous allons devoir intervenir pour empêcher l’indexation de la page. Pour cela, nous disposons de deux outils : les balises noindex nofollow.

La première va indiquer aux robots s’il faut ou non indexer la page et ainsi la faire apparaître au sein des résultats de recherche. En l’absence d’indications contraires, elle sera automatiquement indexée.

Si on ne le souhaite pas, il faut intégrer la balise suivante dans la partie de la page :

<meta name="robots" content="noindex">

La seconde va préciser aux robots si les liens externes présents sur la page doivent être suivis. En réalité, les robots suivront les liens même avec cet attribut. Par contre, ils n’auront pas d’impact sur le PR (pas de « jus transmis ») et ne joueront pas (ou très peu) sur l’indice de confiance de votre page.

Combinées avec l’attribut index, il est possible de donner 4 directives aux robots :

<meta name="robots" content="noindex, follow">

La page ne sera pas indexée mais les liens seront pris en compte

<meta name="robots" content="noindex, nofollow">

Il n’y aura ni indexation de la page ni prise en compte des liens

<meta name="robots" content="index, nofollow">

La page sera indexée mais on dira aux robots que l’on n’est pas sûr de la qualité des liens sortants et qu’il ne faut donc pas les suivre. On peut se faciliter la tâche, par exemple en utilisant cette combinaison sur une page qui comporte de nombreux liens d’affiliation.

<meta name="robots" content="index, follow">

Cette balise n’est pas pertinente puisque c’est le principe de base d’un robot : indexation de la page et suivi des liens.

Quelles pages est-il intéressant de ne pas indexer ?

L’insertion de ces différentes instructions doit s’intégrer dans une stratégie globale de SEO, lors de l’optimisation onsite du site ou directement lors de sa création. Leur impact sur le référencement naturel ne doit pas être négligé. Sur certains CMS, comme WordPress, l’installation de plugins permet de mettre une page en noindex nofollow. Cela rend possible l’utilisation de ces balises par des personnes qui ne maitrisent pas le codage. Mais le risque est qu’elles n’en fassent pas un bon usage.

A quelle occasion peut-on ou doit-on utiliser ces balises ? Il existe plusieurs motifs pour ne pas vouloir l’indexation d’une page par les moteurs de recherche et notamment :

Un contenu pauvre ou inexistant : par exemple, mon site présente un nuancier de couleurs pour mes clients. Si certaines des pages affichent uniquement une couleur, il n’y a aucun intérêt à l’indexer. Au contraire, cela impacterait le volume de page de faible qualité sur l’ensemble du site.
Une page avec du contenu dupliqué : parfois, il n’est pas possible d’échapper au contenu dupliqué (version html et pdf d’une même page, caractéristiques communes de plusieurs produits, etc…). Dans ce cas, il est impératif de ne pas indexer cette page afin d’éviter une pénalité Panda. Ce n’est pas l’objet de l’article, mais dans certains cas l’utilisation de la balise canonical peut être une solution plus pertinente.

Par ailleurs, il peut toutefois être intéressant de permettre aux robots de prendre en compte les liens sortants de ces pages car ils sont puissants et de qualité. C’est là tout l’intérêt d’utiliser ensemble les attributs noindex nofollow pour optimiser les pages d’un site et améliorer son référencement naturel.

Quelques erreurs fréquentes à éviter !

Comme je l’ai précisé au début de mon article, il m’arrive régulièrement de tomber sur de mauvaises utilisations des balises sur des sites dont je récupère le référencement. Un de mes premiers réflexes lors des audits est de vérifier le fichier robots.txt. En effet, en croyant bien faire, le client a pu envoyer des informations contradictoires aux robots et ainsi pénaliser son site (NDLR: Je ne parle pas de pénalité Google, mais plutôt de maladresse).
Le fichier robots.txt est consulté par les robots avant le crawl d’un site. Il contient des instructions à leur égard. Une erreur fréquente est de croire qu’il va pouvoir donner pour directive aux robots de ne pas indexer une ou plusieurs pages. C’est faux. Il va simplement dire aux robots de ne pas crawler ces pages. Mais si elles reçoivent un ou plusieurs liens entrants, leur url ainsi que l’ancre du lien s’affichera dans les résultats des moteurs de recherche. C’est pourquoi il est plus efficace d’utiliser les balises noindex nofollow. C’est d’ailleurs ce que conseille Google.

De plus, le risque majeur en doublant les balises meta avec une instruction au sein du fichier robots.txt est d’annuler leur action. En effet, en disant aux robots de ne pas crawler telle page, ils ne pourront pas savoir qu’elle ne doit pas être indexée et n’empêcheront pas son affichage dans les résultats de recherche si un lien externe pointe vers elle.

Voila, si vous avez des questions où des remarques, n’hésitez pas à commenter ce billet.