web-dev-qa-db-fra.com

L'ajout de noindex sur index.html empêcherait-il l'indexation du domaine principal?

Pour diverses raisons, je ne souhaite pas que mon domain.com/index.html soit indexé car j'ai le même fichier avec le même contenu mais appelé domain.com/home.html à la place.

Maintenant, j'ai ajouté la balise méta noindex dans mon fichier index.html afin que les moteurs de recherche ne l'indexent pas. Cependant, je me demandais si, ce faisant, j'empêchais d’indexer mon domain.com. Comme il s'agit essentiellement de la même adresse URL, la saisie des deux variantes vous mènera à la même page.

1
user55212

Probablement oui, s'il existe un fichier qui alimente les deux URL, elles auront toutes les deux la balise noindex dans le code source

Un moyen simple de le savoir est d'ajouter la balise noindex, puis d'aller sur votre htttp://domain.com/home.html et d'afficher le code source, puis de rechercher noindex. Si vous pouvez le voir dans le code source de votre page d'accueil, les moteurs de recherche le seront également et la page ne sera pas indexée dans le temps.

Une autre façon d'utiliser noindex consiste à utiliser les réponses .htacces dans les réponses HTTP, plutôt que de les ajouter au code du fichier. Ajoutez le code ci-dessous à votre htacess à noindex just domain.com/index.html

<Files index.html>
   Header set X-Robots-Tag "noindex"
</Files>

Une autre façon d'éviter les pages en double consiste à rediriger l'URL en double. Vous pouvez le faire en ajoutant le code ci-dessous dans le fichier .htaccess de votre site:

# Needed before any rewriting
RewriteEngine On

### Place after 'RewriteEngine On' and before any CMS specific rewrite rules

## 301 Redirects
# 301 Redirect 1
RewriteCond %{QUERY_STRING}  ^$
RewriteRule ^index\.html$ /domain.com/home? [R=301,NE,NC,L]

Une autre option est d'utiliser des balises canoniques. Ajoutez le code ci-dessous dans le code source du fichier afin d’alimenter les deux URL:

<link rel="canonical" href="http://domain.com/home.html " />

Lorsque les moteurs de recherche analysent http://domain.com/index.html, la balise leur dit de compter l'URL comme une seule URL, http://domain.com/home.html

Et si, pour une raison quelconque, vous ne pouvez rien faire de ce qui précède, vous pouvez le bloquer dans le fichier robots.txt, qui pourrait ressembler à ceci:

User-Agent: *
Disallow: /index.html$

Cela empêchera les moteurs de recherche d’explorer http://domain.com/index.html, il ne supprimera pas nécessairement la page des pages de résultats de la recherche, mais il sera probablement ajouté aux résultats omis et ne causera pas de problèmes de duplication du contenu. C'est l'option la moins favorisée cependant.

Je pourrais aussi ajouter que si vous rencontrez des problèmes de doublon avec http://domain.com/index.html et http://domain.com/home.html, l'une ou l'autre de ces pages est probablement une copie de votre page d'accueil racine, http://domain.com/. Si tel est le cas, suivez les mêmes étapes ci-dessus, mais de manière à ce que tous les doublons soient résolus également http://domain.com/

2
Max