web-dev-qa-db-fra.com

Blocage de tous les moteurs de recherche sauf les gros

J'aimerais pouvoir bloquer en quelque sorte tous les moteurs de recherche, à l'exception de Google, Yahoo & Bing (et leurs sites connexes tels que Google Images), car ils consomment beaucoup de serveur et de bande passante, mais n'apportent aucun trafic.

Est-ce facile ou difficile? Il serait bon que quelqu'un maintienne une liste de petits moteurs de recherche pouvant être collés dans un fichier robots.txt pour les bloquer.

De plus, je me rends compte que je ne peux pas empêcher les robots d'exploration qui ignorent le fichier robots.txt ou les sites de se gratter et de se glisser subrepticement, mais ce n'est pas ce que je veux. Je veux juste bloquer tous les Altavistas, Hotbots, Lycos (est-ce qu'ils existent encore) et les crawlers expérimentaux de l'université, pour ne pas perdre mon temps.

2
Craig

Qu'avez-vous essayé jusqu'à présent?

En utilisant le Générateur de robots.txt pour les webmasters je l’ai fait:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Mais je ne l'ai pas testé.

3
delete

Quel est le problème, vraiment?

Les bots qui devraient vous inquiéter sont ceux qui ne respectent pas les règles et qui prétendent être des visiteurs réguliers.

Le trafic dans les moteurs de recherche est légitime et, comme l'a souligné Dan, Google a également commencé comme un petit projet universitaire. Il n’est pas vraiment juste de faire de la discrimination à l’égard des petits gars et peut-être même pas intelligent à long terme.

La réponse de Kinopiko fonctionnera, et les outils pour les webmasters de Google vous permettront de créer et de tester votre robot.txt (configuration du site, accès du robot), mais je pense que si le trafic provenant de moteurs de recherche authentiques vous pose problème, il est possible que votre hébergeur actuel la solution n'est pas une bonne affaire.

3
Sylver

Pour ceux qui ne suivent pas les règles, vous pouvez essayer de les trouver dans vos journaux, puis de les bloquer par IP.

En règle générale, vous pouvez repérer un bot grâce au fait qu'il lit les pages trop rapidement pour être humain.

1
Sruly