web-dev-qa-db-fra.com

Script Python/Java pour télécharger tous les fichiers .pdf à partir d’un site Web

Je me demandais s’il était possible d’écrire un script capable de parcourir par programmation une page Web et de télécharger automatiquement tous les liens de fichiers .pdf. Avant de commencer seul, je veux savoir si cela est possible ou non. 

Cordialement 

10
sudobangbang

Oui c'est possible. pour télécharger des fichiers pdf, vous n'avez même pas besoin d'utiliser Beautiful Soup ou Scrapy.

Télécharger à partir de python est très simple Créez une liste de tous les liens linkpdf et téléchargez-les

Référence à la façon de construire une liste de liens: http://www.pythonforbeginners.com/code/regular-expression-re-findall

Si vous avez besoin d'explorer plusieurs pages liées, alors l'un des frameworks pourrait vous aider Si vous êtes prêt à construire votre propre robot d'exploration, voici un excellent tutoriel, qui est aussi une bonne introduction à Python. https://www.udacity.com/course/viewer#!/c-cs101

9
kender99

Oui c'est possible.

En python, c'est simple: urllib vous aidera à télécharger des fichiers de net . Par exemple:

import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")

Vous devez maintenant créer un script qui trouvera les liens se terminant par .pdf.

Exemple de page html: Voici un lien

Vous devez télécharger la page HTML et utiliser un fichier htmlparser ou une expression régulière.

6
aovbros

Oui, c'est possible Ceci s'appelle le raclage de Web. Pour Python, il existe différents packages pour vous aider, notamment scrapy, beautifulsoup, mechanize, ainsi que de nombreux autres.

4
Will

Utilisez urllib pour télécharger des fichiers. Par exemple:

import urllib

urllib.urlretrieve("http://...","file_name.pdf")

Exemple de script pour trouver des liens se terminant par .pdf: https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/DownloadSamplePapers.py

0
Laxman