web-dev-qa-db-fra.com

Est-ce que Google va me pénaliser pour le contenu dupliqué sur GitHub de ma base de connaissances?

Je souhaite disposer d'une copie de chacun des articles de notre documentation dans GitHub afin que d'autres utilisateurs puissent améliorer, modifier et ajouter des informations au document. Les modifications acceptées seront effectuées en direct sur notre forum de la base de connaissances.

Google analyse-t-il les fichiers et le contenu GitHub? Suis-je sanctionné pour le contenu en double sur GitHub et sur mon site?

J'ai eu l'idée de la documentation MS Azure. Si vous faites défiler l'écran jusqu'à la fin de cette page - http://Azure.Microsoft.com/en-us/documentation/articles/virtual-machines-set-up-endpoints/ , vous verrez un possibilité de contribuer à l'article dans GitHub.

5
walbuc

Idéalement non. C'est très, très difficile à pénaliser (Sandboxing, Deindexing).

Le fait de dupliquer du contenu peut "dévaloriser" votre contenu et celui-ci aura moins de poids que de manière organique, mais c'est le travail de Google identifier le contenu d'origine tout en dévaluant les autres pages.

En définissant un lien canonique sur votre site Web, vous indiquez aux moteurs de recherche que cette URL est la source originale du contenu.

<link rel="canonical" href="http://example.com/document">

En ce qui concerne les pages Web externes dans lesquelles vous ne pouvez pas contrôler les attributs <link> dans l'en-tête, les moteurs de recherche tels que Google devront en déduire l'éditeur original.

Que ce soit en raison de la date d'indexation, de la pertinence, de la structure de la page, etc. Un grand nombre de Github Pages ont leur code source entièrement disponible et indexé sur Github. Je peux donc en déduire que Google peut Faites le calcul sur le contenu source en vous basant sur l'architecture de Github, les modèles de contenu, etc.

La syndication est une partie normale du Web et Google est très intelligent. Regardez cet exemple de contenu d'un article de Mashable:

-site:mashable.com/2015/02/05/whatsapp-testing-voice-calling/ "It's not clear when the feature may be rolled out more widely or when the app's iPhone users will be able to use it."

Comme vous pouvez le constater, il y a des centaines de contenu textuel qui ne déchire pas - ne nuit en rien à Mashable, en tant qu'éditeur.

Jusqu'à ce que quelque chose comme rel=syndication soit pleinement accepté dans les spécifications, des cas comme celui-ci sont vraiment "Laissez Google faire leur travail", vous ne pouvez contrôler réellement que le contenu de votre site Web.

Enfin, il faut comprendre pourquoi les pénalités de contenu dupliquées existent et leur destinataire est ciblé - elles ont été formulées à l'origine pour dévaluer les fermes de contenu automatiques et les séparateurs de contenu/spinners qui essayaient délibérément de jouer au système.

Ce n'est pas toi.

De la manière moderne, Google indexe le Web, c’est généralement la première page indexée qui obtient la valeur (c’est-à-dire que le premier communiqué de presse apparaît, 400 clones sont omis).

7
inkovic