Les robots des moteurs de recherche peuvent-ils lire le fichier avec l’autorisation 640?

Question

Je suis sur un serveur linux d'hébergement Web partagé. Je veux que les robots et les araignées des moteurs de recherche puissent lire le fichier robots.txt, mais pas un seul qui tape www.mysite.com/robots.txt.

Conformément à ce qui suit poste de groupe Google , l'utilisateur indique qu'en définissant l'autorisation de fichier sur 640, il est possible de refuser l'accès au fichier robots.txt au monde entier, tout en permettant aux robots des moteurs de recherche de les lire.

Est-ce vrai? Sinon, comment il est possible de refuser l’accès du public au fichier robots.txt tout en permettant aux robots des moteurs de recherche de les lire.

Alex · Answer

Tant que votre fichier robots.txt est accessible aux moteurs de recherche de votre serveur, tout utilisateur peut y accéder directement en saisissant son adresse.

Vous pouvez bloquer son accès via .htaccess à l’aide de filtres agent-utilisateur spécifiques, à savoir autoriser uniquement les agents utilisateurs des moteurs de recherche à y accéder.

Tant que personne ne bricole avec un faux agent utilisateur pour deviner votre fichier robots.txt, vous devriez être en sécurité.

La vraie question est: pourquoi ne voulez-vous pas que vos utilisateurs le voient?

Si des informations sont trop importantes pour être visibles sur le Web, elles ne doivent pas être publiées en ligne (à moins que ne soit derrière un mur protégé par un mot de passe).

paulmorriss · Answer

Non ce n'est pas vrai. Qu'un bot ou une personne accède à votre site, ils utilisent tous le logiciel du serveur Web (Apache par exemple), qui accède au fichier robots.txt de la même manière pour chaque requête. Il sera toujours capable de le lire ou jamais. Si ce n'est jamais, quelque chose est probablement mal configuré.