web-dev-qa-db-fra.com

Rechercher dans la source html avec GOOGLE?

J'ai plusieurs sites Web et je ne me souviens pas où j'ai écrit des lignes de code. Comme mes pages sont indexées par Google, je voudrais savoir si Google propose une fonction de recherche dans le code source HTML/le balisage lui-même, au lieu de permettant simplement une recherche dans la partie visuelle, rendue, d'une page?

Merci

53
Entretoize

Il existe un nouveau moteur de recherche appelé NerdyData qui vous permet de rechercher sur le code source HTML/CSS/JS

Ils indexent plus de 160 millions de domaines publics et j'ai trouvé les données utiles.

33
Noah Freitas

J'ai rencontré les ressources suivantes lors de mes voyages (certaines déjà mentionnées ci-dessus):

Moteurs de recherche axés sur le balisage HTML

Je voudrais également ajouter ce qui suit:

D'énormes archives de données d'exploration de sites Web

Comment pouvons-nous analyser ces données d'exploration?

Pour avoir une idée de la façon de commencer à analyser certaines de ces données massives, jetez un oeil à les cadres Big Data/Map-Reduce-type .

Google énumère quelques idées sur l'utilisation du projet Apache Spark pour analyser les vidages de Common Crawl . Pour comprendre le (s) format (s) de fichier utilisé (s) par Common Crawl , reportez-vous à ce qui suit:

L'article, Accessing-Common-Crawl-Dataset-on-S3 , décrit l'accès 250TB + vidage (s) de Common Crawl dans un manière à faible coût sans transfert de cette charge de données en dehors du réseau AWS/S3 d'Amazon. Bien sûr, cela suppose que vous êtes allez utiliser une combinaison AWS/EC2/S3 etc. pour analyser les données d'analyse.

Enfin, Patrick Durusau maintient quelques pages de blog intéressantes liées à l'utilisation de Common-Crawl .

Personnellement, je trouve ce sujet intrigant, je suggère que nous obtenions ces données d'exploration pendant qu'il est CHAUD! ;-)

24
Big Rich

Vous pouvez essayer PublicWWW pour la recherche dans la source/le balisage. Il permet de trouver n'importe quel HTML, JavaScript, CSS et texte brut dans le code source d'une page Web sur 167+ millions de sites Web.

Avec PublicWWW, vous pouvez:

  • Trouvez des sites Web connexes via les codes HTML uniques qu'ils partagent, c'est-à-dire les widgets et les ID d'éditeur.

  • Identifiez les sites à l'aide de certaines images ou badges.

  • Découvrez qui d'autre utilise votre thème.
  • Identifiez les sites qui vous mentionnent.
  • Trouvez les filiales de vos concurrents.
  • Identifiez les sites où vos concurrents collaborent ou interagissent personnellement.
  • Références pour utiliser une bibliothèque ou une plateforme.
  • Trouvez des exemples de code sur le net.
  • Découvrez qui utilise quels widgets JS sur leurs sites.
  • ...

Bien sûr, vous pouvez trouver non seulement vos sites Web qui utilisent un extrait de code/balisage.

6
James Andreenko

Google ne peut pas rechercher votre code sur le site. Vous pouvez utiliser http://nerdydata.com/ C'est le meilleur moteur de recherche de code que j'ai utilisé! Je pense que vous obtiendrez votre code exact sur ce site.

2
Limon Pervez