web-dev-qa-db-fra.com

Rendre une image non indexable pour les moteurs de recherche dans une page Web

Sur ma page de contact, c’est un formulaire dans lequel les gens peuvent sélectionner un département à contacter, puis ils remplissent les informations de base (nom, email et message).

En outre, un script PHP est appelé (via la balise HTML IMG) pour charger une image indiquant les chiffres à taper exactement dans une zone afin de confirmer que le message composer est réel. Humain. Les chiffres sont générés aléatoirement à chaque chargement. Je ne peux pas utiliser du texte pour générer du texte aléatoire, car les robots de spam pourraient détecter les chiffres plus facilement.

Cela dit, ce que je remarque dans les journaux de mon serveur, c’est que le bot Google Image accède à ce script générant des nombres PHP environ une fois par semaine. Je parie qu'il essaie de l'indexer comme une image consultable par l'utilisateur sur le Web.

Je vérifie dans la documentation de Google les moyens de rendre l’image (script de génération de nombres) non indexable et ils suggéraient de ne pas indexer la page entière de l’image.

J'ai lu sur https://moz.com/community/q/should-i-index-or-noindex-a-contact-page que ne pas indexer une page de contact n'est pas une bonne idée.

Il a également été suggéré de bloquer le fichier dans le fichier robots.txt, mais cela pourrait inciter les pirates à essayer de spammer davantage le site. Je préfère garder mon fichier robots.txt aussi propre que possible.

Existe-t-il un moyen simple de rendre spécifiquement une seule image d'une page non indexable et de laisser le reste des liens de la même page indexable?

2
Mike

Si vous souhaitez simplement qu'une seule image ne soit pas indexée (ou n'importe quelle ressource non HTML, d'ailleurs), envoyez un en-tête de réponse X-Robots-Tag: noindex HTTP avec la ressource. Cela revient à définir une balise méta noindex robots lorsque vous indiquez que vous ne souhaitez pas indexer une page HTML.

Puisque vous générez cette image particulière avec un script PHP, il serait alors facile de l'intégrer au script:

<?php
header('X-Robots-Tag: noindex, noimageindex');

(Pour être honnête, je ne suis pas sûr de savoir laquelle, noindex ou noimageindex, serait requise dans ce cas - mais il n'y a aucun mal à avoir les deux.)

Référence:
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=fr

Cependant, comme cela a déjà été mentionné, je ne vois pas d'inconvénient à le bloquer avec robots.txt. Cela serait nécessaire pour empêcher Google d'explorer l'exploration l'image (et pour l'empêcher d'apparaître dans les journaux de votre serveur). En fait, je pense que bloquer votre script avec robots.txt serait l'approche privilégiée, OMI.

1
MrWhite