web-dev-qa-db-fra.com

Comment archivez-vous un site Web entier pour une consultation hors ligne?

Nous avons en fait gravé à plusieurs reprises des copies statiques/archivées de nos sites Web asp.net pour les clients. Nous avons utilisé WebZip jusqu'à présent, mais nous avons eu des problèmes sans fin avec des plantages, des pages téléchargées qui n'étaient pas correctement reliées, etc.

Nous avons essentiellement besoin d'une application qui explore et télécharge des copies statiques de tout sur notre site Web asp.net (pages, images, documents, css, etc.) puis traite les pages téléchargées afin qu'elles puissent être consultées localement sans connexion Internet (se débarrasser des URL absolues dans les liens, etc.). Plus la preuve est idiote, mieux c'est. Cela semble être un processus assez courant et (relativement) simple, mais j'ai essayé quelques autres applications et je n'ai vraiment pas été impressionné

Quelqu'un at-il un logiciel d'archivage à recommander? Quelqu'un at-il un processus très simple à partager?

53
jskunkle

Sous Windows, vous pouvez regarder HTTrack . Il est très configurable vous permettant de régler la vitesse des téléchargements. Mais vous pouvez simplement le pointer vers un site Web et l'exécuter également sans aucune configuration.

D'après mon expérience, cela a été un très bon outil et fonctionne bien. Certaines des choses que j'aime à propos de HTTrack sont:

  • Licence Open Source
  • Reprend les téléchargements interrompus
  • Peut mettre à jour une archive existante
  • Vous pouvez le configurer pour qu'il soit non agressif lors de son téléchargement afin de ne pas gaspiller votre bande passante et la bande passante du site.
38
Jesse Dearing

Vous pouvez utiliser wget :

wget -m -k -K -E http://url/of/web/site
65
chuckg

Wayback Machine Downloader par hartator est simple et rapide.

Installez via Ruby, puis exécutez avec le domaine souhaité et l'horodatage facultatif à partir de Internet Archive .

Sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
6
jtheletter

J'utilise Blue Crab sur OSX et WebCopier sur Windows.

4
Syntax

wget -r -k

... et étudiez le reste des options. J'espère que vous avez suivi ces directives: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html afin que toutes vos ressources soient en sécurité avec les requêtes GET.

2
Joel Hoffman

Pour les utilisateurs d'OS X, j'ai trouvé l'application sitesucker trouvée ici fonctionne bien sans configurer quoi que ce soit, mais à quelle profondeur elle suit les liens.

1
user1011743

Si vos clients archivent pour des problèmes de conformité, vous voulez vous assurer que le contenu peut être authentifié. Les options répertoriées conviennent pour une visualisation simple, mais elles ne sont pas légalement admissibles. Dans ce cas, vous recherchez des horodatages et des signatures numériques. Beaucoup plus compliqué si vous le faites vous-même. Je suggère un service tel que PageFreezer .

1
Dieghito

J'utilise juste: wget -m <url>.

1
Aram Verstegen

J'utilise HTTrack depuis plusieurs années maintenant. Il gère tous les liens inter-pages, etc. très bien. Ma seule plainte est que je n'ai pas trouvé un bon moyen de le limiter très bien à un sous-site. Par exemple, s'il existe un site www.foo.com/steve que je souhaite archiver, il suivra probablement des liens vers www.foo.com/rowe et l'archivera également. Sinon c'est super. Hautement configurable et fiable.

0
Steve Rowe