web-dev-qa-db-fra.com

Les robots de Google affectent gravement les performances du site

J'ai un site global sur un serveur Linux qui tire des flux d'un univers d'environ 2 000 blogs. C’est dans Wordpress 3.4.2 et j’ai un travail cron qui est étalé pour s’exécuter cinq fois par heure sur un autre serveur pour extraire les récits, puis les publier sur la page de couverture de ce site. C’est pour que je n’ai pas mis trop de pression sur un serveur. Cependant, les robots de Google, qui se rendent plusieurs fois par heure, mettent le serveur à genoux matin et soir, lorsque le trafic sur le site augmente. Les robots ont quelque chose comme 30 000 liens à suivre à ce stade. Comment puis-je étrangler les robots pour simplement prendre les nouvelles histoires de la une et s'arrêter là?

EDIT- Détails de la configuration de mon serveur:

La configuration actuelle est que le serveur qui gère toute la publication est une instance non gérée via AWS. Il monte le serveur NFS et se connecte au RDS pour mettre à jour le contenu, etc. Vous accédez à cette instance de publication via un plug-in qui détecte le lien wp-admin, puis vous redirige ensuite. Le serveur d'applications frontal monte également le système NFS et demande des données au RDS. C'est le seul qui a le super cache WP _ .... Le système d'exploitation est Ubuntu sur le serveur d'applications et le système NFS exécute CentOs. Le serveur frontal est Nginx et le serveur de publication est Apache.

2
Lynn

Utilisez les outils pour les webmasters de Google et diminuez la fréquence d’analyse Google.

Connectez-vous à Outils pour les webmasters> Configuration> Taux d'exploration

5
Magellan

Il semble que vous ayez un problème de performance important. En quelque sorte, je doute que vous souhaitiez que les bots pas indexent votre contenu, donc je ne vais pas y aller ...

Absolument, la première chose à faire est de configurer la mise en cache. W3 Total Cache est un bon début. J'avais l'habitude d'utiliser WP Super Cache, mais le premier offre beaucoup plus d'options pour configurer la mise en cache dans différents environnements. Par exemple, il est compatible avec Amazon ElastiCache (memcached) et vous aurez probablement besoin de le mettre en cache de cette manière si vous exécutez plusieurs serveurs d'applications (voir ci-dessous).

Utiliser Zend OPcache est une autre très bonne idée car cela réduira l'utilisation de votre processeur.

Au-delà, les goulots d'étranglement évidents dans la configuration de votre serveur sont les suivants:

  • NFS. Vous n'avez fourni aucun détail à ce sujet, mais puisque vous êtes sur EC2, cela pose probablement des problèmes.
  • Avoir un seul serveur frontal. Il semble que votre trafic soit suffisamment important pour que vous ayez atteint la limite de ce qu'une seule instance peut fournir. Il est presque certainement temps de l'intensifier, avec une instance plus grande ou plus, avec plus d'instances derrière un équilibreur de charge élastique.
4
Michael Hampton

Pour ce faire, vous pouvez vous rendre à la source et vous enregistrer auprès des outils Google pour les webmasters https://www.google.com/webmasters/tools/home?hl=fr

Ensuite, une fois que vous avez enregistré le site, accédez au menu Configuration de votre site et à Paramètres, vous permettant de limiter le taux d'analyse.

2
suitablyawesome

C’est ce à quoi robots.txt est destiné: http://www.robotstxt.org/

1
Tonny