web-dev-qa-db-fra.com

Le grattage Web est-il autorisé?

Je travaille sur un projet qui nécessite certaines statistiques d'un autre site Web, et j'ai créé un grattoir HTML qui obtient ces données toutes les 15 minutes, automatiquement. Cependant, j'ai arrêté le bot maintenant, car dans leurs conditions d'utilisation, ils mentionnent qu'ils ne le permettent pas.

Je veux vraiment respecter cela, et surtout s'il y a une loi m'interdisant de prendre ces données, mais je les ai contactées plusieurs fois par e-mail sans une seule réponse, alors maintenant je suis arrivé à la conclusion que je vais simplement saisir les données, si elles sont légales.

Sur certains forums, j'ai lu que c'est IS légal, mais je préfère de loin obtenir une réponse plus "précise" ici sur StackOverflow.

Et disons que ce n'est en fait pas illégal, auraient-ils un logiciel pour repérer mon bot établissant plusieurs connexions toutes les 15 minutes?

De plus, lorsque nous parlons de prendre leurs données, nous parlons d'un numéro unique pour chaque "équipe", et ce numéro, je vais le transférer dans notre propre numéro.

28
Mikkel

Je vais citer la réponse de Pablo Hoffman (co-fondateur de Scrapinghub) à "Quelle est la légalité du scraping web?", J'ai trouvé sur un autre site:

Tout d'abord: je ne suis pas avocat et ces commentaires sont uniquement basés sur mon expérience de travail chez Scrapinghub , veuillez demander une assistance juridique en conséquence.

Voici quelques éléments à prendre en compte lors de l'extraction des données publiques des sites Web (notez que les informations suivantes ne concernent que la législation américaine):

  • Tant qu'ils ne rampent pas à un rythme perturbateur, les grattoirs ne violent aucun contrat (sous forme de conditions d'utilisation) ni ne commettent un crime (tel que défini dans la loi sur la fraude et les abus informatiques).
  • Accord d'utilisation du site Web n'est pas exécutoire comme accord de navigation, car les entreprises ne fournissent pas suffisamment de conditions aux visiteurs du site.
  • Scrapers accède aux données du site Web en tant que visiteur et en suivant des chemins similaires à un moteur de recherche. Cela peut être fait sans s'inscrire en tant qu'utilisateur (et en acceptant explicitement toutes les conditions).
  • Dans Nguyen c. Barnes & Noble, Inc., les tribunaux ont statué que le simple fait de placer un lien vers les conditions d'utilisation au bas de la page Web ne suffit pas à "donner lieu à un avis constructif". En d'autres termes, rien sur une page publique n'implique que le simple accès aux informations est soumis à des conditions contractuelles. Scrapers ne donne son accord explicite ni implicite à aucun accord et ne rompt donc aucun contrat.
  • Les réseaux sociaux, par exemple, attribuent la valeur de devenir un utilisateur (basé sur l'appel à l'action sur la page publique), comme la capacité de: i) Accéder à des profils complets, ii) Identifier des amis/connexions communs, iii) Obtenir présenté aux autres, et iv) Contacter directement les membres. Tant que les grattoirs ne tentent pas d'effectuer l'une de ces actions, ils n'obtiennent pas "d'accès non autorisé" à leurs services et ne violent donc pas CFAA
  • Une évaluation approfondie des problèmes juridiques impliqués peut être consultée ici: http://www.bna.com/legal-issues-raised-by-the-use-of-web-crawling-and-scraping-tools -à des fins d'analyse
40

Il doit y avoir robots.txt fichier dans le dossier racine de ce site.

Il existe des chemins d'accès spécifiés, qui sont forbidden à harceler avec des scrappers, et ceux qui sont allowed (avec des délais d'attente acceptables spécifiés).

Si ce fichier n'existe pas - tout est autorisé et vous ne prenez aucune responsabilité pour les propriétaires de sites Web qui ne fournissent pas ces informations.


En outre, ici vous pouvez trouver des explications sur robots exclusion standard.

3
ankhzet