Google ne parcourt pas mon site (erreur robots.txt)

Question

Je suis en train de faire du référencement pour le projet de mon client. Je suis un peu nouveau pour cela, alors s'il vous plaît supporter avec moi.

J'ai lu de nombreuses critiques mitigées sur l'inclusion de robots.txt (certains disent que c'est bien d'inclure même si vous n'avez pas d'URL à bloquer, d'autres disent que nous ne devrions même pas l'avoir).

En outre, de nombreux outils en ligne mentionnaient sans cesse que le site de mon client ne comportait pas de fichier robots.txt, raison pour laquelle j’ai décidé d’inclure le fichier robots.txt dans mon site.

Cependant, mes développeurs ont déployé le fichier robots.txt contenant les éléments suivants:

User-agent: * Disallow: /

Je comprends qu'en ajoutant cette barre oblique inverse pour interdire, Google dira de ne pas tout explorer sur mon site.

31 janvier : un fichier robots.txt incorrect a été déployé

6 février : je me suis rendu compte que je ne pouvais pas trouver mon site Web dans les SERP, et j'ai trouvé l'erreur robots.txt, que j'ai dit à mes développeurs de changer. immédiatement.

14 février: Le fichier robots.txt correct a été déployé

User-agent: * Disallow:

9 mars: Jusqu'à ce jour, toutes mes pages (sauf homepge) sont introuvables dans Google.

Je n'arrive pas à comprendre le problème. Ma seule hypothèse est que, à cause de la barre oblique inversée interdite, Google sorte de "liste noire" toutes mes pages Web. Après avoir modifié le fichier robots.txt à droite, Google n'a pas encore exploré mon site. Par conséquent, mes pages Web se trouvent toujours dans leur "liste noire".

Qu'est-ce que je devrais faire maintenant?

=============================================== ==

Informations éditées:

Je pensais que cela pourrait être dû au passage de HTTP à HTTPS, car l'outil pour les webmasters de Google voit http et https comme des sites distincts. J'ai lu à partir d'ici (https://webmasters.stackexchange.com/questions/68435/moving-from-http-to-https-google-search-console) indiquant que nous devons avoir sitemaps anciens et nouveaux dans GWT.

Dans mon GWT, je n'avais que http, alors j'ai récemment inclus https. Cependant, le sitemap.xml de ma console http et de ma console https est lié à la même chose. Cela pourrait-il être un problème?

MrWhite · Answer

certains disent qu'il est bon d'inclure même si vous n'avez pas d'URL à bloquer

Cela évite simplement que vos journaux soient pollués avec beaucoup de 404 inutiles - car les robots le demanderont quand même. Mais ce n'est pas nécessairement un problème - cela dépend de la façon dont votre logiciel de statistiques le signale. (La demande est quand même enregistrée, qu'elle existe ou non - avec un "200 OK" s'il existe ou un "404 introuvable" si ce n'est pas le cas.)

Si vous spécifiez un fichier robots.txt et que vous souhaitez que les robots explorent toutes les pages, il doit être vide ou contenir le minimum:

User-agent: * Disallow:

(Notez qu'il n'y a pas de barre oblique dans le chemin URL de la directive Disallow.)

Si vous ne l’avez pas déjà fait, vous devez vérifier votre site avec la console de recherche Google (anciennement Google Webmaster Tools) et vérifier à l'aide des outils Crawl> "robots.txt Tester" et "Fetch as Google" pour vous assurer que robots.txt Google voit, quand il a été consulté et que vos pages sont accessibles.

Consultez les journaux de votre serveur - Googlebot a-t-il visité votre site?
Que renvoie une recherche site: dans les SERP?

à cause de la barre oblique inverse interdite, Google genre de "liste noire" toutes mes pages Web.

Google ne "liste noire" pas vos pages de cette manière. Simplement "corriger" votre fichier robots.txt devrait suffire. Btw, c'est une barre oblique (avant), pas une barre oblique inverse .

En fait, il n'est pas rare qu'un site soit bloqué avec robots.txt pendant son développement et ce bloc n'est supprimé que lorsque le site est mis en ligne.

Plusieurs raisons peuvent expliquer pourquoi votre site n'apparaît pas encore dans les SERP. Une chose est que votre site est nouveau et que cela prend du temps - vous ne lui avez peut-être pas donné assez de temps. Et déployer un fichier bloquant robots.txt n'a peut-être que ralenti.

Pour plus d'informations:

Enrico · Answer

Je pense que Disallow:/empêchera les robots Google d’indexer l’ensemble de votre domaine.

Interdit: [le chemin de l'URL que vous voulez bloquer]
Autoriser: [le chemin de l'URL dans un sous-répertoire, dans un parent bloqué
répertoire que vous voulez débloquer]

Avez-vous essayé le testeur robots.txt ?: https://support.google.com/webmasters/answer/6062598

viktta · Answer

FIRST
Par ça:

User-agent: * Disallow: /

Vous dites de ne pas indexer votre site. Cela signifie que l'ensemble de votre site n'apparaîtra pas dans les résultats de recherche. Par exemple, si vous avez un appel à l'annuaire 'test' et que vous avez des pages pour vos tests, vous pouvez faire quelque chose comme:

User-agent: * Disallow: /test/

le fichier robots.txt s'appliquera à tous les moteurs de recherche pouvant interpréter ce fichier, ce qui signifie non seulement Google, mais aussi Yahoo et Bing (et probablement beaucoup plus mineurs).

SECONDE
Si vous avez à la fois "http" et "https" avec Becarefeul avec un contenu dupliqué. L'un de vos répertoires doit être vide, à l'exception du fichier htaccess qui redirige vers l'autre site (HTTP vers HTTPS, HTTPS vers HTTP).
Dans les paramètres de votre registraire de domaine, vérifiez que vous n’avez pas défini de redirection; le seul contrôle des redirections est donc vos fichiers htaccess.

TROISIÈME
Configurez un compte Google Search Console pour ce site. Une fois que vous avez vérifié votre site (si Analytics est configuré, ce sera rapide), vous verrez une quantité d’options pour vérifier tout ce qui est écrit:

Erreurs d'exploration.

Statistiques de crawl.

testeur robots.txt.

testeur sitemaps.xml (dont nous n'avons pas parlé mais qui est TRÈS important également).

Statut d'index.

Ressources bloquées.

Beaucoup plus.