web-dev-qa-db-fra.com

Contrôle sur les archives Internet en plus de "Disallow /"?

Existe-t-il des mécanismes pour contrôler les archives Internet Archive sur un site? Je sais interdire toutes les pages je pourrais ajouter :

User-agent: ia_archiver
Disallow: /
  1. Puis-je dire au bot que je veux qu'il explore mon site une fois par mois ou une fois par an?

  2. J'ai un site/des pages qui ne sont pas/ne sont pas archivés correctement à cause des ressources non récupérées. Existe-t-il un moyen de dire au bot Internet Archive quels sont les actifs nécessaires pour s’emparer du site?

13
artlung

Remarque : Cette réponse est de plus en plus obsolète.

Alexa Internet est le principal contributeur à la collection Web de l'Internet Archive. Le matériel que Alexa explore pour ses besoins a été donné à IA quelques mois plus tard. L'ajout de la règle d'interdiction mentionnée dans la question n'affecte pas ces analyses, mais Wayback les honorera "de manière rétroactive" (interdire l'accès, le contenu sera toujours dans les archives - vous devez exclure le robot d'Alexa si vous souhaitez réellement conserver votre contenu. Internet Archive).

Il y a peut-être des moyens d'affecter les analyses d'Alexa, mais je ne suis pas au courant de cela.

Depuis que IA a développé son propre robot d'exploration (Heritrix), ils ont commencé à faire leurs propres analyses, mais celles-ci ont tendance à être ciblées (elles effectuent des analyses électorales pour Library of Congress et ont effectué des analyses nationales pour la France et l'Australie, etc.). Ils ne s’engagent pas dans le genre d’analyses soutenues à l’échelle mondiale conduites par Google et Alexa. La plus grande analyse de l'IA était un projet spécial d'exploration de 2 milliards de pages.

Comme ces analyses sont effectuées sur des calendriers qui dérivent de facteurs spécifiques au projet, vous ne pouvez pas affecter la fréquence à laquelle ils visitent votre site ou si ils visitent votre site.

Le seul moyen d'influencer directement le moment et le moment où l'IA analyse votre site consiste à utiliser leur service Archive-It . Ce service vous permet de spécifier des analyses personnalisées. Les données résultantes seront (éventuellement) intégrées à la collection Web de IA. Il s’agit toutefois d’un service d’abonnement payant .

8
Kris

La plupart des moteurs de recherche supportent la directive "Crawl-delay", mais je ne sais pas si IA le fait. Vous pouvez l'essayer si:

User-agent: ia_archiver
Crawl-delay: 3600

Cela limiterait le délai entre les demandes à 3600 secondes (soit 1 heure), soit environ 700 demandes par mois.

Je ne pense pas que le n ° 2 soit possible - le bot IA s'empare des ressources à sa guise. Il peut avoir une limite de taille de fichier pour éviter d’utiliser trop de stockage.

2
DisgruntledGoat