web-dev-qa-db-fra.com

Obtenir une liste des URL d'un site

Je déploie un site de remplacement pour un client, mais ils ne veulent pas que toutes leurs anciennes pages se terminent par 404. Garder l'ancienne structure d'URL n'était pas possible parce que c'était hideux.

J'écris donc un gestionnaire 404 qui devrait rechercher une ancienne page et faire une redirection permanente vers la nouvelle page. Le problème, c'est que j'ai besoin d'une liste de toutes les anciennes URL de page.

Je pourrais le faire manuellement, mais je serais intéressé par des applications qui me fourniraient une liste d'URL relatives (par exemple:/page/path, et non http: /.../ page/path). page. Comme une araignée mais qui ne se soucie pas du contenu autre que de trouver des pages plus profondes.

84
Oli

Je ne voulais pas répondre à ma propre question, mais je pensais simplement à utiliser un générateur de sitemap. Le premier que j'ai trouvé http://www.xml-sitemaps.com a une sortie de texte Nice. Parfait pour mes besoins.

56
Oli

faire wget -r -l0 www.oldsite.com

Alors, il suffirait que find www.oldsite.com révèle toutes les URL, je crois.

Sinon, il suffit de servir cette page personnalisée non trouvée sur chaque demande 404! C'est à dire. Si quelqu'un utilisait le mauvais lien, il obtiendrait la page indiquant que la page n'avait pas été trouvée et donnant quelques indications sur le contenu du site.

43
alamar

Voici une liste de générateurs de sitemap (à partir desquels vous pouvez évidemment obtenir la liste des URL d'un site): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Générateurs Sitemap Web

Vous trouverez ci-dessous des liens vers des outils permettant de générer ou de conserver des fichiers au format Sitemaps XML, norme ouverte définie sur sitemaps.org et prise en charge par les moteurs de recherche tels que Ask, Google, Microsoft Live Search et Yahoo !. Les fichiers Sitemap contiennent généralement un ensemble d'URL sur un site Web, ainsi que des métadonnées pour ces URL. Les outils suivants génèrent généralement des fichiers de plan de site XML et de liste d’URL de type Web (de type Web) (certains peuvent également prendre en charge d’autres formats).

Remarque: Google n'a pas testé ni vérifié les fonctionnalités ou la sécurité des logiciels tiers répertoriés sur ce site. Veuillez adresser toute question concernant le logiciel à son auteur. Nous espérons que vous apprécierez ces outils!

Programmes côté serveur

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap Generator (Linux/Windows, 32/64bit, open-source)
  • Outil en PHP (français, PHP)
  • Générateur de sitemap Perl (Perl)
  • Générateur Sitemap Python (Python)
  • Sitemaps simples (PHP)
  • SiteMap XML Générateur Sitemap dynamique (PHP) $
  • Générateur de sitemap pour OS/2 (script REXX)
  • Générateur de sitemap XML (PHP) $

CMS et autres plugins:

  • ASP.NET - Sitemaps.Net
  • DotClear (espagnol)
  • DotClear (2)
  • Drupal
  • Modèles de commerce électronique (PHP) $
  • Modèles de commerce électronique (PHP ou ASP)
  • Type de vie
  • Générateur de sitemap MediaWiki
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Outils téléchargeables

  • GSiteCrawler (Windows)
  • GWebCrawler & Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Générateur Sitemap Microsys A1 (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Générateur Spider et Sitemap (Windows/Mac) $
  • Plan du site Pro (Windows) $
  • Plan du site Writer (Windows) $
  • Générateur de sitemap par DevIntelligence (Windows)
  • Plan du site Sorrowmans (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • Générateur de sitemap WebDesignPros (application Java Webstart)
  • Weblight (Windows/Mac) $
  • WonderWebWare Sitemap Generator (Windows)

Générateurs/Services en ligne

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Générateur de sitemap gratuit
  • Générateur de sitemap Neuroticweb.com
  • Générateur de sitemap ROR
  • ScriptSocket Sitemap Generator
  • SeoUtility Sitemap Generator (Italien)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Validateur XML Google Sitemaps
  • Générateur de sitemap XML
  • Générateur de sitemaps XML

CMS avec générateurs de sitemap intégrés

  • Béton5

Générateurs de sitemap Google News Les plug-ins suivants permettent aux éditeurs de mettre à jour les fichiers de sitemap de Google News, une variante du protocole sitemaps.org que nous décrivons dans notre centre d'aide. Outre les propriétés normales des fichiers Sitemap, les sitemaps de Google Actualités permettent aux éditeurs de décrire les types de contenu qu'ils publient, ainsi que de spécifier les niveaux d'accès à des articles individuels. Pour plus d'informations sur Google Actualités, consultez notre centre d'aide et nos forums d'aide.

  • WordPress Google News plugin

Extraits de code/bibliothèques

  • Script ASP
  • Le script LISP d'Emacs
  • Librairie Java
  • Script Perl
  • Classe PHP
  • Script générateur PHP

Si vous pensez qu'un outil doit être ajouté ou supprimé pour une raison légitime, veuillez laisser un commentaire dans le forum d'aide pour les webmasters.

20
Franck Dernoncourt

Le meilleur sur ce que j'ai trouvé est http://www.auditmypc.com/xml-sitemap.asp qui utilise Java, sans limite de pages, et vous permet même d'exporter les résultats sous forme d'URL brute liste.

Il utilise également des sessions. Par conséquent, si vous utilisez un système de gestion de contenu, assurez-vous d'être déconnecté avant de lancer l'analyse.

6
Collins

Donc, dans un monde idéal, vous auriez une spécification pour toutes les pages de votre site. Vous auriez également une infrastructure de test qui pourrait atteindre toutes vos pages pour les tester.

Vous n'êtes probablement pas dans un monde idéal. Pourquoi ne pas faire ça ...?

  1. Créez un mappage entre les anciennes URL bien connues et les nouvelles. Rediriger lorsque vous voyez une ancienne URL. J'envisagerais peut-être de présenter un message "cette page a été déplacée, sa nouvelle URL est XXX, vous serez redirigé sous peu".

  2. Si vous n'avez pas de mappage, présentez un message "Désolé - cette page a été déplacée. Voici un lien vers la page d'accueil" et redirigez-les si vous le souhaitez.

  3. Consignez toutes les redirections, en particulier celles sans mappage. Au fil du temps, ajoutez des correspondances pour les pages importantes.

2
Martin Peck

wget depuis une boîte Linux pourrait également être une bonne option car il existe des commutateurs vers spider et modifie sa sortie.

EDIT: wget est également disponible sur Windows: http://gnuwin32.sourceforge.net/packages/wget.htm

2
Thomas Schultz

Ecrivez une araignée qui lit dans chaque code HTML à partir du disque et génère chaque attribut "href" d'un élément "a" (peut être fait avec un analyseur). Gardez à l'esprit les liens qui appartiennent à une certaine page (tâche courante pour une structure de données MultiMap). Après cela, vous pouvez produire un fichier de mappage qui sert d’entrée pour le gestionnaire 404.

1
Mork0075

J'examinerais n'importe quel nombre d'outils de génération de sitemap en ligne. Personnellement, j’ai utilisé celui-ci (basé sur Java) dans le passé, mais si vous effectuez une recherche sur Google pour "constructeur de plan de site", je suis sûr que vous trouverez beaucoup d’options différentes.

0
Eric Petroelje