Télécharger tous les liens PDF dans une page Web?

Question

Connaissez-vous un bon logiciel pour télécharger tous les PDF liens d’une page Web?

Le système d'exploitation est Windows 7.

Kevin Worthington · Accepted Answer

Vous pouvez utiliser wget et exécuter une commande comme celle-ci:

wget --recursive --level=1 --no-directories --no-Host-directories --accept pdf http://example.com

Ou avec les options courtes:

wget -r -l 1 -nd -nH -A pdf http://example.com

UPDATE: Comme votre mise à jour indique que vous utilisez Windows 7, utilisez wget pour Windows à partir d'une invite cmd.

MISE À JOUR 2: Pour une solution graphique - bien que cela puisse être excessif puisqu'il récupère également d'autres fichiers est DownThemAll

Lorenz Lo Sauer · Answer

Dans votre navigateur, appuyez sur CTRL+SHIFT+Jet entrez

var pdflinks = []; Array.prototype.map. call (document.querySelectorAll ("a [href $ = \". pdf\"]"), fonction (e, i) {if ((pdflinks || []). indexOf (e.href) == - 1) {pdflinks.Push (e.href);}}); console.log (pdflinks.join (""));

Cela retournera dans la console:

" https://superuser.com/questions/tagged/somepdf1.pdf " " https://superuser.com/questions/tagged/somepdf2.pdf " "- https://superuser.com/questions/tagged/somepdf3.pdf "
Maintenant, utilisez wget avec les options de ligne de commande wget url1 url2 ...

Copier et coller ceci, ouvrir une console entrer wget appuyer sur le bouton droit de la souris pour insérer le contenu du presse-papiers et appuyer sur entrée.

Pour utiliser un fichier de téléchargement, joignez les lignes avec "\ n" et utilisez le paramètre comme suit wget -i mydownload.txt

Notez que la plupart des autres programmes de téléchargement (GUI) acceptent également d’être appelés avec une liste d’URL séparées par des espaces.

J'espère que cela t'aides. C'est comme ça que je le fais généralement. Il est plus rapide et plus flexible que toute extension avec une interface graphique, je dois apprendre et rester familier avec.

Louis Maddox · Answer

Si vous voulez rester dans le navigateur, j'ai écrit une extension Web exactement à cette fin. Je travaille sur l'ajout de la possibilité de sauvegarder des PDF d'articles savants avec des titres correctement formatés, mais si vous voulez simplement les télécharger, tout est parfait. pour ça.

C'est ce qu'on appelle onglet Enregistrer et sur la boutique en ligne Chrome ici . Vous n'avez même pas besoin de saisir la liste des URL si vous les ouvrez tous dans des onglets (mais pour un grand nombre de fichiers, cela pourrait ralentir un ordinateur, j'ai donc ajouté l'option d'ajouter les vôtres).

kenorb · Answer

Sur Google Chrome, il est possible d'utiliser des extensions telles que:

Download Master

Avec cette extension, vous pouvez télécharger toutes les images, vidéos, pdf, doc et tout autre fichier lié à la page Web que vous visitez.

Cogitative · Answer

J'ai récemment utilisé uGet (sous Windows) pour cela. Il a une interface graphique, et vous pouvez filtrer les fichiers que vous avez l'intention de télécharger.

Enregistre en essayant de se souvenir de tous ceux

kenorb · Answer

Google

Il existe peu d'outils Python permettant de télécharger PDF des liens à partir du site Web en fonction des résultats de la recherche Google.

Par exemple.

google_dl script (recommandé).

Usage:

./google_dl -s http://www.example.com/ -f pdf ""

gsrchDwn script (basé sur le script de de neo ).

Usage:

./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf

^{Remarque: je suis le responsable des deux scripts mentionnés.}

Les deux implémentent xgoogle la bibliothèque Python. Mon fork de cette bibliothèque est basé sur la version pkrumins/xgoogle .

Connexes: Une recherche Web à partir de la ligne de commande Linux .