fait Google google crawl / follow lien sur une page avec meta robots noindex

Question

Nous avons ajouté les balises Meta suivantes sur certaines de nos pages:

<meta content="noindex" name="robots"/>

Google analyse-t-il le contenu et les liens de cette page et ne l'affiche pas dans les résultats de recherche Google?.
Si oui, comment puis-je empêcher bot de ne pas explorer le contenu et les liens de cette page?

Raul Reyes · Accepted Answer

Par défaut, Google ou tout autre moteur de recherche moderne va explorer, indexer et suivre les liens dans une page lorsque la balise méta ci-dessus est absente.

Dans votre exemple, Google trouvera l'instruction noindex et voici ce qui devrait arriver:

Google bot explorera la page (si les robots txt le permettent)
Votre page ne sera pas indexée et sera éventuellement supprimée de SERP.
Le moteur de recherche suivra tous les liens de la page.
les pages liées seront indexées.

Ajouter nofollow

Ajoutez cette instruction à la balise Meta pour indiquer à Google de ne pas suivre les liens. Toutefois, si ces pages sont liées à partir d'autres pages sans cette instruction, les pages seront indexées.

Ne pas autoriser Google à explorer la page

Assurez-vous de ne pas autoriser le blocage de l'accès via les robots txt. Cependant, faites-le après que Google ait exploré la page et soit au courant des instructions noindex, nofollow.

Andrew Martin · Answer

Une fois qu'une page est affichée, Google va simplement l'explorer, la sucer et la conserver dans sa mémoire vaste et à très long terme.

Si la page que vous souhaitez supprimer figure dans les SERP de Google, le noindex seul ne résoudra pas ce problème. Il sera simplement conseillé aux nouveaux moteurs de recherche de ne pas la classer. Vous devez ajouter nofollow, noarchive à la commande robots de cette page (il peut s'agir d'une seule commande) pour la vider du cache de recherche Google, etc., et arrêter le robot en suivant les liens figurant sur cette page.

Assurez-vous que vous êtes autorisant les moteurs de recherche à explorer cette page via votre fichier robots.txt, sinon ils ne verront jamais cette requête.

Une fois que votre page a été supprimée des SERP (effectuez quelques vérifications sur le site [votre domaine] dans le champ de recherche Google), vous pouvez utiliser le fichier robots.txt pour indiquer à votre recherche de ne pas y accéder. Je préférerais également conserver la commande au niveau de la page noindex, nofollow, noarchive dans la page, afin de la garder en dehors des SERPs au cas où le fichier robots.txt serait édité.

Cela peut prendre un certain temps pour résoudre ce problème, mais ça ira.

Matthew Jasek · Answer

La balise indique aux moteurs de recherche de ne pas inclure la page dans leurs listes. Autant que je sache, vous ne pouvez pas empêcher un moteur de recherche d'analyser votre page, car il devra analyser la page afin de voir si vous supprimez la balise. (Si vous changez d'avis et souhaitez que la page soit répertoriée)