web-dev-qa-db-fra.com

Aucune description de page sur le site Web n'est disponible dans Google alors que le fichier robots.txt permet l'exploration.

Il semble que le problème le plus étrange avec l'optimisation des moteurs de recherche ait été posé. J'ai posé la question à des informaticiens de mon université, à des utilisateurs de forums Joomla et j'essaie de résoudre ce problème avec Google Webmaster Tools pendant plus de 2 mois sans grande efficacité. Je souhaite savoir si une configuration manifestement erronée a été commise à un endroit qui empêche les moteurs de recherche d’indexer ce site. J'ai remarqué un problème similaire avec un autre site Web sur lequel j'ai effectué une recherche en ligne (ECEGSA - Université de la Colombie-Britannique à l'adresse gsa.ece.ubc.ca), ce qui m'a amené à croire que cela pourrait être une préoccupation pour laquelle les gens pourraient chercher une réponse.

Voici les détails: Le site Web en question est: http://gsa.ece.umd.edu/ . Il fonctionne avec Joomla 2.5.x (dernier). Le site était ouvert vers le milieu de décembre 2013 et j'ai immédiatement remarqué que le site n'était pas correctement indexé sur Google. Plus précisément, le message suivant apparaît lorsque je recherche le site Web sur Google:

A description for this result is not available because of this site's robots.txt – learn more.

La chose est en Décembre jusqu'à environ Mars, j'ai utilisé le fichier robots.txt Joomla par défaut qui est:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Rien ne devrait empêcher Google de rechercher sur mon site Web. Et encore plus déroutant, lorsque je vais dans les outils Google pour les webmasters, sous l'onglet "URL bloquées", lorsque j'essaie de nombreux liens sur le site, ils apparaissent tous comme "Autorisés". J'ai ensuite essayé d'ajouter un plan du site, en le mettant dans le fichier robots.txt. Cela n'a pas aidé. Même résultat exact de la recherche, même comportement dans l'onglet "URL bloquées" des outils pour les webmasters. De plus, l'onglet "sitemaps" indique pour plusieurs liens une erreur indiquant que "l'URL est effacée". J'ai essayé ces liens exacts dans les "URL bloquées" et ils sont autorisés!

J'ai ensuite essayé de supprimer le fichier robots.txt. Pas d'Utilisation. Même problème exact.

Voici un exemple de capture d'écran des outils pour les webmasters de Google: Index Status for my website showing no crawl errors and no blocked URLs, in direct contradiction to what the sitemap tab says and what the search result says! FRUSTRATION!

À ce stade, je ne peux pas expliquer de manière rationnelle pourquoi cela se produit et aucun membre du service informatique ici ne le peut non plus. Personne sur les forums Joomla ne peut sembler comprendre ce qui se passe.

D'après ce que j'ai expliqué, semble-t-il que j'ai en quelque sorte défini un paramètre dans le fichier robots.txt ou .htaccess ou ailleurs, de manière incorrecte?

3

Vous redirigez vers une page de connexion qui vous redirige ensuite:

$ curl --head http://gsa.ece.umd.edu/
HTTP/1.1 303 See other
Date: Sun, 25 May 2014 10:45:59 GMT
Server: Apache/2.2.25 (Unix) mod_ssl/2.2.25 OpenSSL/0.9.8e-fips-rhel5 mod_bwlimited/1.4
X-Powered-By: PHP/5.4.21
Set-Cookie: c32b08af5ad5c16062381828f6a1b64e=6d66a9870a7067c444930d8deb190cd9; path=/
Location: https://login.umd.edu/cas/login?service=http%3A%2F%2Fgsa.ece.umd.edu%2F%3Fserver%3D1&gateway=true
Content-Type: text/html; charset=utf-8

La page de connexion vers laquelle vous redirigez est bloquée par robots.txt :

$ curl -s http://login.umd.edu/robots.txt
User-agent: *
Disallow: /cas/
3

Merci Stephen pour ton aide. Votre observation était correcte et c’est en effet à cause de la redirection 303 que l’indexation des moteurs de recherche ne fonctionnait pas correctement.

Je souhaite ajouter à cette discussion et diriger les gens vers ma réponse: Joomla Stackexchange: configuration incorrecte de l'extension Externallogin causant un problème d'indexation des moteurs de recherche , ce qui explique clairement en quoi l'erreur de configuration concerne le plug-in externallogin qui causera ce problème, afin que les autres personnes susceptibles de le rencontrer sachent comment le résoudre.

CORRECTION
En résumé, pour résoudre ce problème, vous devez corriger la configuration du plug-in comme suit:
1. Dans le menu des extensions, sous "Connexion externe>", accédez à la configuration du serveur.
2. Dans l'onglet connexions, pour "Connexion/Déconnexion automatique", choisissez "Non".

L'erreur se produit si vous choisissez "Oui" à l'étape 2, car dans ce cas, l'extension ajoute automatiquement une redirection 303 à toutes les pages de votre site Web, afin de vérifier si un utilisateur a été connecté au CAS dans la session du navigateur, et si c'est le cas, il vous connecte automatiquement au site. Cette fonctionnalité causera des problèmes d’indexation des moteurs de recherche.

1