web-dev-qa-db-fra.com

PDF sont toujours indexés lorsque noindex X-Robots-Tag est défini dans .htaccess

J'essaie d'analyser le fichier . Htaccess d'un site Web, en particulier le code suivant:

<FilesMatch ".pdf$">
<IfModule mod_headers.c>
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</IfModule>
</FilesMatch>

Il est censé noindex tous les PDF du site Web.

Cependant, les fichiers PDF sont toujours là et fonctionnent, et j'en suis sûr car:

  • ils apparaissent toujours dans les SERPs
  • ils sont verts dans la console de recherche
  • la vérification d'en-tête n'affiche aucune commande sur noindexing

Comment est-ce possible? Mon hypothèse est qu'il y a un conflit dans le code . Htaccess .

Le robots.txt fichier:

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /web_service/
Disallow: /wp-admin/
Disallow: /xmlrpc.php

Sitemap: https://www.example.com/sitemap.xml
3
FabrizioM

Votre en-tête ne parvient pas à vos documents. J'ai essayé curl --head 'https://www.aurigaspa.com/wp-content/uploads/Top-Banking-Trends-for-2019-and-How-Banks-Need-to-Prepare-White-Paper-Auriga.pdf'curl est un programme en ligne de commande. Vous pouvez l'exécuter vous-même après SSHing sur votre serveur, ou vous pouvez le télécharger et l'installer sur votre ordinateur personnel.

Je suppose que mod_headers n'est pas installé ou n'est pas activé. Vous avez la condition <IfModule mod_headers.c> dans vos règles. Cela entraînera le silence de votre directive si mod_headers n'est pas installé ou activé.

Je suggère de changer votre .htaccess en:

<FilesMatch ".pdf$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>

Cela pourrait rendre votre site Web indisponible. Si cela se produit, vous savez que vous devez installer ou activer mod_headers. Voir Comment installer mod_headers sur ServerFault.

1