web-dev-qa-db-fra.com

Comment puis-je obtenir une liste de toutes les pages indexées pour mon domaine?

Nous sommes en train de migrer un panier de commerce électronique obsolète vers Magento. Une partie de ce processus impliquera la configuration des redirections 301 appropriées. Je souhaite obtenir une liste de toutes les pages indexées sur lesquelles nous baserons notre solution et résoudre autant de problèmes potentiels que possible avant de les mettre en ligne.

Idéalement, j'aurais besoin d'un fichier CSV contenant les URI indexés par les moteurs de recherche pour notre domaine.

En regardant une question similaire ici , il semble qu'il n'existe pas de moyen simple d'exporter ces données à partir des outils pour les webmasters de Bing ou de Google, étant donné que ce panier contient des dizaines de milliers de produits (et donc des dizaines de milliers de fichiers). pages indexées).

J'ai rencontré quelques autres utilitaires tiers tels que Screaming Frog et ceux basés sur le Web tels que searchenginegenie et internetmarketingninjas, mais je ne les ai jamais utilisés et hésite à commencer à générer du trafic supplémentaire sur notre site à moins que je sache que nous " Vous obtiendrez ce dont nous avons besoin.

Quelqu'un at-il déjà utilisé ces outils pour faire quelque chose de similaire ou a-t-il trouvé un moyen de récupérer plus que les 1000 meilleurs enregistrements de GWT (ou quelque chose de similaire de Bing)?

5
JR.XYZA

En fait, j'ai utilisé Screaming Frog aujourd'hui et j'adore cet outil. Vous obtenez beaucoup d'informations en très peu de temps. Vous obtiendrez les métadonnées dans un csv et vous pourrez les manipuler facilement dans Excel. Exportez tout, puis utilisez des filtres pour chaque colonne afin d’afficher uniquement du texte/html et non des images ou des fichiers CSS.

Je le fais pour une migration de site en ce moment et je l’utilise depuis un temps. Combien de pages parlez-vous? Voici un comparaison sur Moz de Xenu vs SF .

3
user29555

Comme Google ne renverra jamais plus de 1 000 résultats, ma clé provenait d'un script Perl autonome permettant d'interroger (à l'aide de Lynx --accept-cookies) plusieurs segments pour

site:myweb.xxx in the way https://www.google.es/search?q=site:www.955170000.com+%2B+"AA"&num=50&filter=0

Le script calcule la chaîne pour la recherche. Maintenant, il s'agit de "AA". Ensuite, il cherchera "AB" et ainsi de suite jusqu'à "ZZ", mais vous pouvez sélectionner à votre guise, inclure des chiffres et d'autres caractères.

Ensuite, chaque résultat de recherche (dans mon cas, 50 résultats seulement sont renvoyés) est filtré pour rechercher chaque lien pour chaque page indexée. Tous sont enregistrés dans un fichier. Maintenant, nous devons passer bien | trier | uniq ce fichier pour effacer les liens répétés. J’ai ajouté jusqu’à 120 secondes entre les requêtes, sinon Google vous dira que vous utilisez un robot.

Cela signifie que de cette façon (formulaire AA à AZ) et 100 résultats par page, je peux collecter jusqu’à 78 000 pages indexées en 26 heures de traitement (en utilisant une adresse IP unique, mais vous pouvez installer deux machines ou plus avec une adresse IP différente et gagner du temps). .

Si vous devez collecter plus de 78 Ko (pas plus de 100 résultats par requête et un maximum de 1000 résultats totaux pour chaque recherche), vous pouvez bien sûr en essayer jusqu'à 1 000 pour chaque chaîne de recherche. En théorie, vous pourriez intercepter plus de 7 résultats. , 8 millions de pages.

Remarquez que de nombreuses peuvent être dupliquées. Une fois que vous avez extrait tous les résultats possibles de Google, vous devez donc trier les résultats uniques du filtre (j'ai utilisé les commandes sort et uniq * nix pour le faire).

La prochaine étape, c’est-à-dire détecter le contenu en double ou d’autres problèmes, est maintenant facile, ou insérez toutes les URL collectées dans le prochain script pour supprimer les URL dans GWT (à nouveau limitées à environ 1 000 par jour) ou ré-abonner le téléchargement pour réindexer ( limité à environ 30 000 liens par Google)

1
Joaquin Franco

Vous pouvez également rechercher site:mydomain.com sur Google pour obtenir la liste de toutes les pages indexées de votre domaine, y compris les sous-domaines.

1
Ivar

Quel que soit le panier de commerce électronique obsolète que vous utilisez maintenant, si vous êtes en mesure de générer par programme toutes les URL de produits et de catégories dans l'ancienne plateforme, vous n'avez pas besoin de la redirection 301. Vous pouvez utiliser les mêmes URL dans Magento (en mettant à jour la table core_url_rewrite). C'est une particularité de Magento.

J'avais l'habitude de faire du référencement pour un site Web Magento, qui utilisait auparavant un panier de commerce électronique obsolète, tout comme le vôtre. La migration a été effectuée pour que Magento conserve les mêmes anciennes URL.

Un mot de prudence à propos de Magento. Il y a trop de battage médiatique à propos de Magento. Bien qu’il utilise l’architecture MVC, il s’agit de l’une des pires plateformes de commerce électronique. Cela est particulièrement vrai pour les grands catalogues (vrai dans votre cas, car vous dites que vous avez des dizaines de milliers de produits et de catégories). Sauf si vous utilisez l'édition Enterprise, qui utilise la mise en cache avancée pour accélérer les choses (et coûte très cher), l'édition Community ne servira pas votre cause.

Ils disent que Magento est SEO friendly. Rien ne peut être plus éloigné de la vérité. Les propres URL de Magento (liées aux produits et aux critiques de produits) sont un véritable gâchis en matière de référencement. Il génère plusieurs URL (chemins) pour le même produit, s'il est affecté à plusieurs catégories. Dans ce cas, vous devez quand même utiliser la gestion de catalogue Url Rewrite, ce qui peut être un casse-tête.

Les problèmes d'URL de Magneto étaient l'unique responsable des dommages causés aux activités du site Web dont je parle en nuisant à leur classement dans les moteurs de recherche.

Quoi qu'il en soit, vous ne devriez pas trop vous soucier des pages qui figurent dans l'index de Google (qui est multi-couches). Supposons que tous sont indexés et 301 tous redirigés, si vous décidez d'utiliser la redirection 301.

Merci,
Satyabrata Das

1
Satyabrata Das

Utilisez cette fonction dans une feuille de calcul:
=importXml("http://google.com/search?q=site:YOUR_SITE.com&num=100&start=1","//cite")

Cela retournera les pages indexées 1 à 100, répétez avec start = 101 pour obtenir les 100 suivantes.

0
katjam