Je sais comment trouver des liens morts qui vont à 404 pages. Cependant, de nos jours, peu de liens disparaissent, mais ils finissent par aller vers un squatteur de domaine. Je me rends compte que c’est un défi de taille, mais y at-il un moyen de savoir si un site Web est réellement un squatteur de domaine sans consulter réellement chaque site avec mon navigateur et l’examiner pour voir s’il existe une photo d’une fille avec un sac à dos, etc. .
Méthodes de détection possibles pour les pages/domaines parqués:
Faites une recherche insensible à la casse pour trouver des phrases génériques classiques comme "ce dont vous avez besoin, quand vous en avez besoin" et "votre source pour pratiquement tout!".
Recherchez un texte tel que "se renseigner sur ce domaine" et "ce domaine peut être à vendre".
Visitez testdomain.com/randomstring
. Si vous obtenez un 404, ou si la page elle-même contient le texte "404" ou "introuvable", il n'est probablement pas parqué.
D'autres systèmes de domaine parqués redirigent testdomain.com/randomstring
vers testdomain.com
.
Plusieurs modèles de domaine parqués utilisent le format suivant pour la balise méta author:
<meta name="author" content="Nameofdomain.com" />
D'autres l'ont mis dans la description:
<meta name="description" content="nameofdomain.com">
Dans chaque cas, le domaine est l'élément niquement dans l'attribut 'content'. Il est peu probable que ce soit le cas pour les sites actifs.
Certains modèles de domaine parqués utilisent la balise <frameset>
avec plusieurs cadres internes pour extraire du contenu externe (souvent à partir de 'information.com'), mais ne comportent sinon rien d'autre sur la page.
Aucun de ces tests n'est nécessairement un indicateur fiable d'un domaine parqué. Vous devrez probablement combiner plusieurs tests pour créer votre propre algorithme, puis le tester et le raffiner en fonction d'une suite de domaines parqués connus et de domaines actifs connus.
Il y a des choses que vous pouvez rechercher. L'élément dominant sur la page est-il un iFrame? La réponse est-elle un 301
/302
qui vous fait quitter le domaine? (Beaucoup de squatters vont simplement 302
ou 301
vous rendre à leur page de destination). Le rapport lien/texte est-il incroyablement élevé?
Je dirais que c'est très difficile, mais c'est au moins certaines caractéristiques communes.
Il semble également y avoir un projet sur la page Wikipedia linkrot
faisant référence à un projet tentant de le faire: http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot - détails sont fragmentaires si.