web-dev-qa-db-fra.com

Empêcher les robots de recherche d'indexer le nom de domaine du (sous) serveur

Une application Web que j'ai écrite est hébergée sur un serveur interne portant le nom myserver, qui relève du domaine de mon université (department.uni.edu), l'adresse du serveur étant donc myserver.department.uni.edu. Lorsque je Google myserver, le premier résultat est le serveur exact hébergeant l'application Web.

J'ai un fichier robots.txt pour l'application (répertoire racine) avec le contenu suivant:

User-agent: *
Disallow: /

C'est le serveur actuel nom de domaine qui a été indexé, et rien dans l'application Web.

Je sais que je peux supprimer les résultats de recherche avec Google Webmaster Tools , mais comment empêcher Google d'indexer le serveur nom de domaine (ou adresse)? Je crois que le serveur exécute Nginx sur Ubuntu 14.10 (je ne suis pas la personne en charge du serveur, je ne fais que coder l'application Web).

Le but ici est d'empêcher le serveur d'être indexé par des outils de recherche Web tels que Google, Bing, Yahoo, etc.

Une solution consiste peut-être à bloquer tous les robots d'exploration de la racine du sous-domaine (mysever.department.university.edu) à l'aide d'une règle de réécriture Nginx telle que:

map $http_user_agent $limit_bots {
     default 0;
     ~*(google|bing|yandex|msnbot) 1;
     ~*(AltaVista|Googlebot|Slurp|BlackWidow|Bot|ChinaClaw|Custo|DISCo|Download|Demon|eCatch|EirGrabber|EmailSiphon|EmailWolf|SuperHTTP|Surfbot|WebWhacker) 1;
     ~*(Express|WebPictures|ExtractorPro|EyeNetIE|FlashGet|GetRight|GetWeb!|Go!Zilla|Go-Ahead-Got-It|GrabNet|Grafula|HMView|Go!Zilla|Go-Ahead-Got-It) 1;
     ~*(rafula|HMView|HTTrack|Stripper|Sucker|Indy|InterGET|Ninja|JetCar|Spider|larbin|LeechFTP|Downloader|tool|Navroad|NearSite|NetAnts|tAkeOut|WWWOFFLE) 1;
     ~*(GrabNet|NetSpider|Vampire|NetZIP|Octopus|Offline|PageGrabber|Foto|pavuk|pcBrowser|RealDownload|ReGet|SiteSnagger|SmartDownload|SuperBot|WebSpider) 1;
     ~*(Teleport|VoidEYE|Collector|WebAuto|WebCopier|WebFetch|WebGo|WebLeacher|WebReaper|WebSauger|eXtractor|Quester|WebStripper|WebZIP|Wget|Widow|Zeus) 1;
     ~*(Twengabot|htmlparser|libwww|Python|Perl|urllib|scan|Curl|email|PycURL|Pyth|PyQ|WebCollector|WebCopy|webcraw) 1;
 }

location / {
    if ($limit_bots = 1) {
        return 403;
    }
}

( emprunté à Gd Hussle )

mais, cela suffirait-il ou faudrait-il quelque chose de plus sophistiqué?

1
Chris Cirefice

Avec robots.txt, vous pouvez contrôler l'exploration et non l'indexation . Si un moteur de recherche n'est pas autorisé à analyser un document sur votre hôte, il peut toujours indexer son URL, par exemple. s'il a trouvé le lien sur un site externe.

Vous pouvez contrôler l'indexation avec l'élément meta-robots ou l'en-tête X-Robots-Tag HTTP ( voir les exemples ).

Vous devez décider si vous souhaitez autoriser les moteurs de recherche à analyser, mais pas à indexer, ou à indexer, mais pas à analyser. Parce que si vous n'autorisez pas l'analyse dans le fichier robots.txt, les moteurs de recherche ne pourront pas accéder à vos documents. Ils ne pourront donc jamais apprendre que vous ne voulez pas que ceux-ci soient indexés.

1
unor