web-dev-qa-db-fra.com

Web spider pour Ubuntu

Je cherche un spider Web pour Ubuntu comme celui-ci Webripper - Calluna Software . Vous pouvez télécharger un site entier comme vous le pouvez avec

wget -r -m example.com

mais la fonctionnalité que je recherche est que vous pouvez saisir un terme de recherche tel que "Linux". Il effectue une recherche sur le Web et les télécharge. Existe-t-il des programmes sur Ubuntu comme celui-ci?

11
zeitue

Vous pouvez utiliser les alertes Google pour créer une sorte de page de recherche livrée dans un flux, puis utiliser un lecteur RSS ou Thunderbird pour les lire.

J'utilise Thunderbird pour RSS. Je ne sais pas s'il existe des lecteurs RSS qui pourraient exporter le flux au format HTML simple.

4
To Do

Donnez un coup de feu à httrack (CLI) ou webhttrack (interface Web), c'est dans le dépôt de l'univers. Je ne suis pas sûr de la fonctionnalité de terme de recherche que vous décrivez, mais elle offre une multitude d’options facilement configurables.

http://packages.ubuntu.com/de/oneiric/webhttrack

Copieur de site Web HTTrack - Navigateur hors connexion de logiciel libre (GNU GPL)

9
bkzland

Vous pouvez essayer http ripper .

Voici quelques fonctionnalités publiées sur le site:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.pngCapture d'écran

Regardez un tutoriel du développeur de httpripper lui-même:

Lien de téléchargement:

Cela a fonctionné pour moi sous Ubuntu 11.10 x64

3
blade19899