web-dev-qa-db-fra.com

Télécharger TOUS les dossiers, sous-dossiers et fichiers à l'aide de Wget

J'utilise Wget et j'ai rencontré un problème. J'ai un site qui a plusieurs dossiers et sous-dossiers dans le site. Je dois télécharger tout le contenu de chaque dossier et sous-dossier. J'ai essayé plusieurs méthodes en utilisant Wget, et quand je vérifie l'achèvement, tout ce que je peux voir dans les dossiers est un fichier "index". Je peux cliquer sur le fichier d'index, et cela me mènera aux fichiers, mais j'ai besoin des fichiers eux-mêmes.

quelqu'un a-t-il une commande pour Wget que j'ai oubliée ou existe-t-il un autre programme que je pourrais utiliser pour obtenir toutes ces informations?

exemple de site:

www.monsite.com/images/ dans le répertoire Images, il existe plusieurs dossiers .....

www.monsite.com/images/comptes/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

J'ai besoin de tous les fichiers, dossiers, etc .....

17
Horrid Henry

Je veux supposer que vous n'avez pas essayé ceci:

wget -r --no-parent http://www.mysite.com/Pictures/

ou pour récupérer le contenu, sans télécharger les fichiers "index.html":

wget -r --no-parent - reject "index.html *" http://www.mysite.com/Pictures/

Référence: Utilisation de wget pour extraire récursivement un répertoire contenant des fichiers arbitraires

31
Felix Imafidon

J'utilise wget -rkpN -e robots=off http://www.example.com/

-r signifie récursivement

-k signifie convertir les liens. Donc, les liens sur la page Web seront localhost au lieu de example.com/bla

-p signifie obtenir toutes les ressources de la page Web afin d’obtenir des images et des fichiers javascript afin que le site Web fonctionne correctement.

-N permet de récupérer les horodatages. Si les fichiers locaux sont plus récents que les fichiers du site Web distant, ignorez-les.

-e est une option de drapeau qui doit être présente pour que le robots=off fonctionne.

robots=off signifie ignorer le fichier de robots.

J'ai également eu -c dans cette commande, donc si la connexion est interrompue, elle continuerait là où elle s'était arrêtée à partir du moment où j'ai réexécuté la commande. J'ai pensé que -N irait bien avec -c

14
Tim Jonas

wget -m -A * -pk -e robots = off www.monsite.com/, cela téléchargera tous les types de fichiers localement et les pointera à partir du fichier html
et il ignorera le fichier de robots