web-dev-qa-db-fra.com

se faire interdire par robots.txt: scrapy

lors de l'exploration de sites Web comme https://www.netflix.com , se faire interdire par robots.txt: https://www.netflix.com/>

ERREUR: Aucune réponse téléchargée pour: https://www.netflix.com/

43
deepak kumar

Dans la nouvelle version (scrapy 1.1) lancée le 11/05/2016, l'analyse télécharge d'abord le fichier robots.txt avant l'analyse. Pour changer ce comportement, changez votre settings.py avec ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Voici les notes de version

110
Rafael Almeida

La première chose à faire est de changer votre agent utilisateur dans la demande, sinon l'agent utilisateur par défaut sera bloqué à coup sûr.

1
Ketan Patel