web-dev-qa-db-fra.com

Comment puis-je dire à GoogleBot qu'un sous-répertoire est maintenant un sous-domaine?

J'ai eu environ un million de pages d'un catalogue indexé sous un sous-répertoire, et maintenant, il est déplacé vers un sous-domaine. GoogleBot explore chacun d'eux et obtient une redirection 301 vers le nouvel emplacement. Même si j'ai configuré la règle de redirection dans le fichier de configuration activé par les sites Apache (c'est-à-dire qu'il est trop tôt pour qu'Apache effectue la redirection - PHP ne soit même pas chargé), même si je l'ai déjà fait, le serveur ne gère pas bien la charge. GoogleBot effectue environ 5 requêtes par seconde, en plus de mon trafic normal, qui grimpe le processeur plusieurs heures à la fois.

J'ai vérifié dans les Outils pour les webmasters et dans la documentation correspondante un moyen de faire savoir à Google que le contenu avait été transféré d'un sous-répertoire à un sous-domaine, mais avec un peu de chance. Fondamentalement, la chose la plus utile que j’ai vue disait de envoyer 301 en-têtes pour le nouvel emplacement.

Comment puis-je dire à GoogleBot qu'un sous-répertoire est maintenant un sous-domaine? Si ce n'est pas une option, comment puis-je envoyer plus efficacement des redirections 301 vers un sous-domaine particulier?

Je pensais peut-être au serveur Nginx, mais je ne suis pas sûr de pouvoir exécuter Apache et Nginx côte à côte sur le port 80 pour différents sous-domaines.

1
cwd

Vous mentionnez que vous avez déjà lu la documentation et que vous utilisez les bonnes étapes, c'est donc fait. Bien sûr, vous pouvez poster ici les techniques spécifiques que vous utilisez et ensuite nous pourrons vérifier que vous le faites correctement.

À propos de la redirection, 301 est la meilleure option. Si vous avez déplacé quelque chose de manière permanente, vous devez envoyer 301 aux clients.

Vous mentionnez également la vitesse à laquelle Google analyse votre site. Vous devez alors contrôler cela, cochez cette case modification du taux d'analyse de Google , sans oublier que vous pouvez contrôler la fréquence des visites dans le sitemap. Cela n’aidera pas pour la première visite, mais dès que le problème sera résolu, votre problème devrait disparaître et avec le bon calendrier dans votre sitemap, tout devrait bien se passer.

Vous pouvez également bloquer des parties du site à l'aide de votre fichier robots.txt. Google respecte cela. Ensuite, après quelques heures, vous pouvez modifier le fichier robots.txt et autoriser l’accès à certains autres dossiers. Cela contrôlera le flux sur vos sites, mais risque de retarder l'indexation et l'apparence dans les résultats Google. C'est ta décision.

N'oubliez pas d'ajouter le sous-domaine à votre compte Outils pour les webmasters afin de pouvoir contrôler tous les paramètres, y compris le taux et la fréquence d'analyse.

Consultez vos journaux pour vérifier que toutes les redirections fonctionnent comme prévu.

Au sujet de deux serveurs Web écoutant dans le même port, vous ne devriez pas faire cela, cela les ferait entrer en collision et casser. De plus, je ne pense pas que vous puissiez le faire avec des serveurs modernes, car ils vérifient la disponibilité du port avant de commencer.

0
PatomaS

GoogleBot effectue environ 5 requêtes par seconde, en plus de mon trafic normal, qui grimpe le processeur plusieurs heures à la fois.

Vous pouvez réduire le taux de google et d’autres moteurs de recherche explorent avec la directive robots.txt "Crawl Delay". Par exemple, définissez le maximum jusqu'à ce que les choses refroidissent: Crawl-Delay: 30

Je suis d'accord avec tout ce que dit PatomaS.

0
user16081