web-dev-qa-db-fra.com

Ignorer les URL dans robot.txt avec des paramètres spécifiques?

Je voudrais que Google ignore les URL comme celle-ci:

http://www.mydomain.com/new-printers?dir=asc&order=price&p=

Toutes les URL qui ont les paramètres dir, order et price doivent être ignorées mais je n'ai pas d'expérience avec Robots.txt.

Une idée?

63
Luis Valencia

Voici une solution si vous souhaitez interdire les chaînes de requête:

Disallow: /*?*

ou si vous voulez être plus précis sur votre chaîne de requête:

Disallow: /*?dir=*&order=*&p=*

Vous pouvez également ajouter au robots.txt quelle URL pour autoriser

Allow: /new-printer$

Le $ s'assurera que seul le /new-printer sera autorisé.

Plus d'informations:

http://code.google.com/web/controlcrawlindex/docs/robots_txt.html

http://sanzon.wordpress.com/2008/04/29/advanced-usage-of-robotstxt-w-querystrings/

115
Book Of Zeus

Vous pouvez bloquer ces paramètres de chaîne de requête spécifiques avec les lignes suivantes

Disallow: /*?*dir=
Disallow: /*?*order=
Disallow: /*?*p=

Donc, si une URL contient dir=, order=, ou p=n'importe où dans la chaîne de requête, il sera bloqué.

24
Nick Rolando

Enregistrez votre site Web avec Google WebMaster Tools. Là, vous pouvez dire à Google comment gérer vos paramètres.

Configuration du site -> Paramètres URL

Les pages contenant ces paramètres doivent indiquer qu’elles doivent être exclues de l’indexation via la balise Meta robots. par exemple.

3
Tony McCreath