web-dev-qa-db-fra.com

Comment obtenir une liste de tous les liens indexés?

Je cherche un moyen de prendre tous les liens que j'ai indexés par Google et de les exporter vers un fichier CSV. Récemment, j'ai eu beaucoup plus de pages indexées par Google que je ne l’ai réellement et je veux trouver la provenance de toutes ces pages sans avoir à afficher chaque page de résultat de recherche.

8
Lee

Malheureusement, il n’existe aucun moyen d’obtenir une liste complète de toutes les pages indexées de Google. Même la solution de milo5b ne vous fournira qu’un maximum de 1 000 URL.

Il semble que vous ayez des problèmes de contenu en double. Dans Outils pour les webmasters, vérifiez Santé> Index Status et cela vous montrera un total cumulé de pages indexées au fil du temps. Si le graphique fait un grand saut à un moment donné, vous pourrez peut-être déterminer si un changement spécifique sur votre site a déclenché le saut.

Vous pouvez également essayer d'utiliser Outils pour les webmasters de Bing . Ils ont un explorateur d'index qui pourrait vous aider à trouver les URL. Les araignées des moteurs de recherche sont assez similaires, donc si Google a trouvé ces liens, Bing l'a probablement fait aussi.

Je pensais que Bing avait le moyen d'exporter la plupart de ses données, mais je ne peux pas les trouver en un clin d'œil. Il existe une API, vous pouvez donc probablement l'utiliser pour tout extraire.

6
DisgruntledGoat

J'ai fini par explorer le sous-dossier problématique en recherchant le site: domain.com/foo/bar/, mais lors de ma recherche, je suis tombé sur une méthode permettant d'obtenir les résultats de la recherche dans un fichier Excel.

Ouvrez une feuille de calcul Google Docs et utilisez cette formule:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Il n’obtiendra que les 100 premiers résultats, mais vous pouvez l’utiliser à nouveau pour obtenir les 100 suivants. Il suffit de changer la variable de départ:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Cela ne fournira que 1000 résultats, comme mentionné précédemment par DisgruntledGoat, mais la formule peut être modifiée pour fournir des liens à partir de sous-répertoires spécifiques:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")

8
Lee

Vous pouvez écrire un script qui analyse SERP de Google (par exemple PHP + Curl) et stocker chaque lien dans un fichier CSV. Veillez à ce que votre script se comporte comme un humain, car Google pourrait interdire votre IP des résultats de recherche pendant quelques heures si vous en abusez.

2
milo5b