web-dev-qa-db-fra.com

Cacher un site entièrement aux moteurs de recherche (Google, Bing, etc.)

Ma société gère quelques sites Web internes que nous ne voulons pas indexés par des moteurs de recherche tels que Google, Bing, etc.

Cependant, les sites Web doivent toujours être accessibles à nos clients et, par conséquent, je ne souhaite pas utiliser protection par mot de passe HTTP .

Bien évidemment, j'ai déjà un robots.txt contenant:

User-agent: *
Disallow: /

Lorsque je recherche le nom de domaine, il apparaît toujours et Google dit: " La description de ce résultat n’est pas disponible en raison du fichier robots.txt de ce site ", alors que Bing dit" Nous aimerions vous montrer une description ici, mais le site ne nous le permet pas. ".

Comment puis-je m'assurer que les sites Web sont totalement cachés dans les résultats de la recherche?

4
Kristian

Toute méthode reposant sur le bon comportement du robot d'exploration peut échouer. Par conséquent, la meilleure option consiste à utiliser la force/l'autorité la plus puissante disponible, dans ce cas, le serveur Web lui-même. Si vous avez accès à la configuration du serveur Web principal ou au moins au fichier .htaccess , vous devez utiliser une méthode qui implique ces éléments.

La meilleure façon consiste à utiliser le mot de passe http, mais si vous ne voulez vraiment pas l'utiliser, vous avez encore une autre option.

Si vous connaissez les adresses IP de vos clients, vous pouvez limiter/autoriser cela dans votre . Htaccess avec un simple contrôle d'accès du code comme celui-ci

Order deny,allow
Deny from all
Allow from x.x.x.x
Allow from y.y.y.y

Les IP peuvent être sous la forme x.x.x au lieu de x.x.x.x, ce qui signifie que vous autoriserez tout le bloc manquant.

Vous pouvez combiner cela avec certains en-têtes HTTP. 4 indique au bot de ne pas y aller, il essaie généralement plusieurs fois, mais il devrait fonctionner rapidement s'il est associé à la directive deny.

Vous pouvez utiliser le code de réponse HTTP même si vous ne connaissez pas les adresses IP de votre client.

Une autre option consiste à rediriger la demande vers la page d'accueil et à utiliser, par exemple, un code HTTP 301 , bien que je ne recommande pas cette méthode. Même lorsque cela fonctionnera, vous ne dites pas la vérité sur la ressource et sur ce qui lui est arrivé. Par conséquent, ce n'est pas une approche précise.

Mise à jour en tenant compte de votre commentaire

Vous pouvez utiliser la [liste des chaînes de l'agent utilisateur à partir des robots] pour les bloquer sur votre fichier .htaccess., Cette syntaxe simple ferait ce que vous voulez.

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo|yandex) [NC]
RewriteRule .* - [R=403,L]

Ajoutez simplement les plus communs ou ceux qui ont été sur votre site.

2
PatomaS

Utilisez Header set X-Robots-Tag "noindex". Cela empêche les pages d'être dans l'index d'un moteur de recherche.

Dans Apache, vous pouvez placer ceci dans votre fichier de configuration ou dans le fichier .htaccess de votre répertoire racine:

Header set X-Robots-Tag "noindex"
3
John Conde

Cela se produit lorsque Google ou Bing découvre votre site et qu’il n’a pas été informé ne pas indexer le site. Cela se produit lorsqu'il existe un lien ou une redirection vers le site et que le fichier robots.txt limite le moteur de recherche du site. Cependant, ce n'est pas la même chose que de dire à un moteur de recherche pas à indexer le site.

Mettez <meta name="robots" content="noindex"> dans l'en-tête de votre code HTML de toutes les pages (préférable) ou au moins la page d'accueil et les moteurs de recherche devraient supprimer votre site de l'index à temps. Cela peut prendre 30 à 60 normalement (pour Google) mais peut prendre plus de temps. Tout dépend de la rapidité avec laquelle le moteur de recherche revisite votre site et du traitement dans le moteur de recherche. Cela peut prendre moins de 30 jours aussi. Je voulais juste vous avertir que cela pourrait prendre du temps.

Pour l'instant, il n'y a pas de mal sauf que d'autres peuvent découvrir votre site. Si vous voulez limiter les visites, alors peut-être qu'un autre mécanisme est nécessaire. Je comprends que je veux le garder ouvert et ne pas avoir besoin d’un compte. Pour le moment, je ne suis pas sûr d'avoir des conseils sur la limitation des visites. Mais comprenez également que les araignées malhonnêtes découvriront également votre site et pourront créer des liens sans tenir compte de vos souhaits. Pensez à la manière dont vous pouvez contrôler l'accès si et quand cela se produit - et si le contrôle est important pour vous.

2
closetnoc