web-dev-qa-db-fra.com

Qu'est-ce qu'un lien toxique?

Il y a quelques mois, j'ai posé une question similaire à propos de quand un bon lien devient-il toxique? mais cette fois, je demande "quoi est un lien toxique? ". Vous lisez partout sur Internet que vous devriez désavouer vos liens toxiques avec peu d'informations sur ce qui est en réalité classé comme un lien toxique.

Malheureusement, la plupart des informations classeront les liens toxiques simplement parce qu'ils sont créés par eux-mêmes, alors que cela peut en fait être un mauvais conseil. Les liens sur les réseaux sociaux, github, WordPress répertoire des plugins, sites de démarrage, certaines infographies, citations, etc. sont généralement créés et ne doivent pas être supprimés. Certains conseils incluent que les pingouins ne se soucient que des liens qui ne sont pas "non suivis", les autres sont ignorés (certains des SEO'ers les plus respectés l'ont déjà dit).

D'autres liens peuvent inclure des commentaires de blogues utilisant votre marque ou votre nom d'entreprise pour des blogs pertinents qui améliorent leur pertinence et améliorent l'expérience utilisateur. Alors alors ... l'idée de cette question pour avoir des réponses de qualité basées sur ce que vous avez lu et ce que vous avez appris, et possibilité de changer cette question en une question de la communauté wiki une fois qu'elle est établie.

Les réponses idéales devraient être un peu plus approfondies, par exemple les liens de commentaires de blog sont mauvais est un petit tableau, car utiliser votre vrai nom peut être acceptable, etc., utiliser le champ du nom est mauvais mais dans le corps, ça va, les correspondances de mot-clé partielles sont ok, exact sont mauvais etc. Mais je ne m'attends nullement à ce que quelqu'un passe la semaine prochaine à rédiger une réponse de 100 000 mots.

2
Simon Hayter

D'accord. Pour commencer.

Le terme lien toxique n'est pas utilisé par Google. Il s’agit bien d’une invention de classe de bavardage SEO et certains utilisent ce terme pour gagner des utilisateurs sur leur site et effrayer les joueurs de vous, ainsi que pour gagner de l’importance pour eux-mêmes ou pour vous vendre quelque chose.

En ce qui concerne Google, il n’existe pas de lien toxique. Bien sûr, il y a de mauvais liens, mais tout lien pouvant donner lieu à une pénalité ne se produit pas dans le vide. C'est en fait difficile à faire.

De plus, c'est un sujet ÉNORME. Je vais vous donner autant que 64 000 pieds de vue tout en restant dans la limite de 100 000 mots. Si vous êtes étourdi, ne baisse pas les yeux, regarde en haut. Si vous vous endormez, je suggère de l'eau glacée. Si vous tombez, appelez LifeAlert.

Je vais procéder à une ingénierie inverse, du moins que je peux, du point de vue de Google. Cela peut sembler un long chemin autour de la grange, mais c'est en fait une meilleure expérience d'apprentissage.

La sémantique est essentielle pour cette réponse.

J'ai déjà parlé de la sémantique, des paires relationnelles et des chaînes relationnelles. Les relations sémantiques sont importantes à comprendre. Pourquoi? Parce que lorsque Google parle de spam et de mauvais liens, il parle de sémantique en utilisant des termes tels que noeuds, liens, clusters, etc. Il est important de penser à cela, et de ne pas attribuer de termes non liés, tels que le terme toxique . L'application de l'informatique au problème n'inclut pas les termes humains émotionnels. Pensez comme une machine et vous serez beaucoup mieux loti. Nix ça! Je viens de penser à Hal, Bender et quelques autres.

J'ai parlé de la sémantique avec des exemples dans la réponse: Pourquoi un site Web avec un rang de mot-clé supérieur à un sans dans les résultats de recherche Google?

Dans ce cas, beaucoup de facteurs sont en jeu. Je ne les aurai pas tous ici. En fait, je ne vais même pas essayer, la liste est trop longue. Je ne vous donnerai donc qu'un indice.

Quand et où cela a commencé et en quoi il consiste.

La première chose à savoir est que Google a démarré ce processus avant 2003, quelques années seulement après la publication du premier document de recherche publié en 1997. 2003 est le premier indice applicable de ce que Google a fait et réfléchit sur le sujet. Sachez également que Google collecte autant de données que possible sur tous les sites Web à la recherche d'indices. Ce qui est collecté vous assommera. Cependant, même en 2003, nous savions que les informations d’enregistrement (whois), les informations d’enregistrement de nom de domaine, les informations d’hôte, les informations DNS, y compris les tests DNS, de réseau et de stabilité de domaine, notamment les noms de domaine les noms sont attribués à une adresse IP, et l'hébergement multi et l'hébergement simple ont été collectés. Dans ce contexte, il est clair que les réseaux sont connus pour leurs mauvais comportements, quels serveurs d’hôte hébergent des domaines de qualité médiocre, quels hébergeurs Web hébergent des domaines de qualité médiocre, des adresses IP spécifiques de qualité médiocre et des blocs d’adresses IP de qualité médiocre. Peu de temps après, Google a utilisé les données de la liste noire dans le cadre de cette analyse et s'est même penché sur la qualité du support technique fourni par les bureaux d'enregistrement et les hôtes évaluant les entreprises à cet égard. Vraiment.

Sachez également que Google a utilisé des évaluateurs de contenu pour vérifier manuellement les sites Web. Ils recherchent des sites qui correspondent à certaines catégories et qui serviront de base aux méthodes d'apprentissage de l'IA. Parmi ces catégories, il y a bien sûr le spam, la confiance, faisant autorité, non faisant autorité, généré par l'homme, généré par la machine, etc. Ces sites de référence sont utilisés à des fins de comparaison dans l'analyse de l'IA.

Quoi de neuf (ish)?

Nous savons que Google applique la sémantique et d'autres analyses aux balises de titre, aux liens et au contenu. Un de ceci est n-grammes. N-grammes sont une méthode simple pour décomposer le contenu dans n ensembles de mots incrémentiels. Par exemple, "Le renard brun rapide saute par-dessus le chien paresseux". utiliser 3 grammes serait le renard brun rapide , le renard brun rapide , le renard brun saute , etc. Le n peut ensuite être incrémenté et l'analyse redémarrée. En utilisant ceci et en comparant avec les sites de référence, Google peut évaluer la langue du contenu et déterminer quelques éléments tels que: était-il écrit par un humain, était-il écrit par une machine, était-il un logiciel utilisé, la langue du contenu comprenant des variations telles que l'anglais américain par rapport à un autre, et ainsi de suite. À l'aide de paires de données telles que et lignes , Google peut même utiliser n-grammes pour identifier l'auteur d'un travail non signé en le comparant à un travail d'auteurs connus. Incroyable.

Google héberge une énorme base de données sémantique. Accordé. Passer à autre chose.

Dans cette base de données sémantique, certains liens sont établis et des grappes sont formées. Les clusters sont des entités ayant une similitude ou un lien relationnel. Clarifier.

La société A possède plusieurs sites Web pouvant être liés à l'aide de plusieurs facteurs: enregistrement, hôte, adresse IP, registraire, modèles de nom de domaine, modèles, combinaisons de couleurs, similarité des images, similitude du contenu, duplication du contenu, coordonnées de contact basées sur le Web (les courriels sont particulièrement utiles). indice précieux), listes de personnel, profils d’application, profils de ressources, modèles de lien, etc. J’ai utilisé le terme royaume auparavant et c’est un terme correct dans certains cercles. L'utilisation du terme cluster est la même notion en sémantique. Pour tous les sites de la société A, il s'agit d'un cluster. S'il vous plaît comprendre que les clusters peuvent être n'importe quelle relation et les clusters peuvent se chevaucher. Alors, imaginez cela à mesure que nous progressons.

Les spammeurs se donnent.

Il existe plusieurs façons de connaître les sites de spam, notamment: similarité de contenu, modèles, similarité d'image, profils d'application, profils de ressource, modèles de lien, pour n'en nommer que quelques-uns. Et oh oui, il y a d'autres traits.

Les sites de spammeurs ont généralement quelques points communs. L'un est un site super autorité. Pourquoi? Parce que sans autorité, tout le système de spam s'effondre et échoue Le site super-autorité aura plusieurs milliers de liens entrants et moins de liens sortants. Dans ce contexte, la vue traditionnelle du PageRank que nous avons tous vue est rejetée par la fenêtre en 2003. Vous vous souvenez avoir vu des dessins d’une page PR 6 faisant référence à deux autres pages transmettant PR 3 à chaque lien. C'est une vision trop simpliste et presque complètement fausse. Chaque lien est évalué pour sa valeur, c'est-à-dire la valeur réelle qui comprend 0, et la confiance/autorité de tout site/page est plafonnée de sorte que les sites/pages à haute confiance/autorité transmettent moins de valeur que ce qu'ils possèdent et uniquement par un facteur de la valeur de le lien. Pourquoi est-ce fait? Sculpter une courbe plus naturelle dans le schéma et empêcher les sites de super autorité de transmettre trop de valeur. Cela semble être la première salve à travers l'arc des spammeurs.

Les liens sont évalués non seulement pour les modèles, mais aussi de la même manière que le contenu. En cela, Google peut dire si le lien est naturel ou non naturel. Les schémas de liens suivent des modèles, en particulier lorsque vous considérez qu'ils sont fabriqués à la machine, et que, pour la plupart, ils sont détectables.

Pensez plus petit.

La sémantique est utilisée pour stocker de nombreux facteurs dans une base de données. À l'aide de la base de données, les cartes de liens peuvent être évaluées et les grappes déterminées. Je parlais auparavant de clusters principalement liés au domaine, mais je souhaite maintenant que vous réfléchissiez à de plus petites entités telles que des pages, des liens, des modèles, du contenu, des liens de navigation, des barres latérales, etc. À l'aide de la mappe de liens sémantiques, Google est en mesure de déterminer et probabilité qu'un ensemble d'entités soit conçu pour être manipulateur. En utilisant des grappes pour lier des modèles et des relations, toute pénalité est attribuée à la suite de cette analyse, le cas échéant. Rappelez-vous ceci.

Panda et autres algorithmes.

Bien que nous ne puissions connaître aucun des algorithmes de Googles, nous pouvons le savoir. Panda court périodiquement. Pourquoi ?, Panda 4.2 est lent, car il nécessite de récupérer de grandes parties de sites. On sait également que Panda est en train d'être retravaillé dans l'algorithme standard. J'ai mentionné dans une autre réponse qu'IA était écrit dans un code plus petit appelé Agents. Un agent répond généralement à une seule question généralement binaire. Bien entendu, ce n'est pas toujours le cas, mais les agents remplissent généralement une seule fonction conceptuelle. Nous savons également que les agents sont utilisés pour créer des métadonnées qui peuvent être des types différents. Les agents dépendent parfois les uns des autres et peuvent être référencés dans un autre code pour maintenir cette dépendance. De même, lorsqu’une actualisation d’une base de données volumineuse est requise, un code est écrit qui fait référence à plusieurs agents. Dans ce cas, Panda nécessite davantage d'informations, ce qui signifie qu'il est probable que de nouveaux facteurs soient ajoutés à la base de données sémantique ou que des facteurs existants soient actualisés. De plus, il est probable que les valeurs et les ajustements de l'algorithme nécessitent des recalculs dans la base de données sémantique. Incidemment, nous savons aussi que Panda est probablement une compilation d’autres agents susceptibles de faire l’objet d’un code. Il semble correspondre au modèle d'IA.

D'accord. Alors qu'est-ce qu'on a?

Google n'utilise pas le terme lien toxique . Google parle de mauvais liens, clusters, etc. Nous savons que Google limite la confiance et l'autorité et évalue la valeur réelle des liens, même en leur attribuant la valeur 0. Nous savons que Google peut évaluer des centaines de facteurs dépassant de loin le nombre 200 afin de déterminer un mauvais lien. Nous savons que Google examine tout et n'importe quoi pour trouver des relations et du contenu manipulateur, des liens, des sites, etc. Nous savons que les pénalités résultent de cette analyse.

Alors, quel est un lien toxique?

Tout lien sortant vers votre site à partir d'une des entités d'un cluster où la manipulation est déterminée. (Souffle - tout va bien - plus bas.) Ce n'est pas le lien lui-même ni aucune caractéristique du lien, mais le fait qu'un lien vous entraîne de manière relationnelle dans un groupe de préoccupations de Google.

Cela signifie-t-il que les liens de sites indésirables sont toxiques?

N ° Rappelez-vous qu'un grand site qui renvoie à de nombreux sites et peut même avoir de nombreux liens entrants n’est pas digne d’une pénalité en général. Cela en soi n'est pas du spam. C'est un site. Pensez à domaintools.com. Convient au modèle mais pas digne d'une pénalité. Il existe de nombreux exemples de sites comme celui-ci. Pour qu'une sanction soit appliquée, il doit exister un exemple flagrant de manipulation quelque part.

Résumé

Ceci est juste une illustration pour souligner que ce n'est pas le lien lui-même, ni la configuration ou l'emplacement du lien, mais plutôt la source du lien qui nous préoccupe. En règle générale, un lien moche d'un site moche ne fait pas de mal. Affirmer le contraire est une tactique d'effarouchement ou tout simplement une erreur. En fait, un nombre suffisant de liens malsains provenant de sites assez médiocres peut vraiment aider un site cible à fonctionner étonnamment bien (sans le recommander bien sûr - et oui, j'en ai des exemples). Même un seul lien toxique, tel que je l'ai défini, ne vous fera probablement pas de mal non plus. Il s’agit plus d’un motif de liens toxiques provenant d’un seul groupe ou de plusieurs groupes. Ils peuvent potentiellement vous attirer dans le (s) cluster (s) et lorsqu'ils sont pénalisés, le potentiel d'inclusion de votre site peut être élevé.

Pas tout à fait 100 000 mots et éventuellement dans la limite de 40 000 caractères SE utilisée

6
closetnoc

Je vais commencer ça ...

Signatures de forum pertinentes

  • Mots clés exacts - toxique
  • Mots-clés partiels - risque élevé
  • Nom de société partiel - risque moyen
  • Texte d'ancrage de nom de société unique - risque moyen
  • Nom de marque - risque moyen
  • Votre nom - risque faible
  • Img link - risque faible
  • http: // link - risque faible
  • Img src pas de lien - pas de risque
  • Domaine/marque/nom/raison sociale - aucun risque
1
Simon Hayter