web-dev-qa-db-fra.com

Comment détecter des liens pointant vers des squatters de domaine?

Je sais comment trouver des liens morts qui vont à 404 pages. Cependant, de nos jours, peu de liens disparaissent, mais ils finissent par aller vers un squatteur de domaine. Je me rends compte que c’est un défi de taille, mais y at-il un moyen de savoir si un site Web est réellement un squatteur de domaine sans consulter réellement chaque site avec mon navigateur et l’examiner pour voir s’il existe une photo d’une fille avec un sac à dos, etc. .

4
delete

Méthodes de détection possibles pour les pages/domaines parqués:

Trouver des phrases indésirables

Faites une recherche insensible à la casse pour trouver des phrases génériques classiques comme "ce dont vous avez besoin, quand vous en avez besoin" et "votre source pour pratiquement tout!".

Trouver des invitations à acheter

Recherchez un texte tel que "se renseigner sur ce domaine" et "ce domaine peut être à vendre".

Testez 404 sur des sous-pages aléatoires

Visitez testdomain.com/randomstring. Si vous obtenez un 404, ou si la page elle-même contient le texte "404" ou "introuvable", il n'est probablement pas parqué.

Tester les redirections sur des sous-pages aléatoires

D'autres systèmes de domaine parqués redirigent testdomain.com/randomstring vers testdomain.com.

Rechercher le nom de domaine dans les balises méta

Plusieurs modèles de domaine parqués utilisent le format suivant pour la balise méta author:

<meta name="author" content="Nameofdomain.com" />

D'autres l'ont mis dans la description:

<meta name="description" content="nameofdomain.com">

Dans chaque cas, le domaine est l'élément niquement dans l'attribut 'content'. Il est peu probable que ce soit le cas pour les sites actifs.

Recherchez la balise frameset

Certains modèles de domaine parqués utilisent la balise <frameset> avec plusieurs cadres internes pour extraire du contenu externe (souvent à partir de 'information.com'), mais ne comportent sinon rien d'autre sur la page.

Utiliser plusieurs tests

Aucun de ces tests n'est nécessairement un indicateur fiable d'un domaine parqué. Vous devrez probablement combiner plusieurs tests pour créer votre propre algorithme, puis le tester et le raffiner en fonction d'une suite de domaines parqués connus et de domaines actifs connus.

2
Nick

Il y a des choses que vous pouvez rechercher. L'élément dominant sur la page est-il un iFrame? La réponse est-elle un 301/302 qui vous fait quitter le domaine? (Beaucoup de squatters vont simplement 302 ou 301 vous rendre à leur page de destination). Le rapport lien/texte est-il incroyablement élevé?

Je dirais que c'est très difficile, mais c'est au moins certaines caractéristiques communes.

Il semble également y avoir un projet sur la page Wikipedia linkrot faisant référence à un projet tentant de le faire: http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot - détails sont fragmentaires si.

0
Mark Henderson