PDF sont toujours indexés lorsque noindex X-Robots-Tag est défini dans .htaccess

Question

J'essaie d'analyser le fichier . Htaccess d'un site Web, en particulier le code suivant:

<FilesMatch ".pdf$"> <IfModule mod_headers.c> Header set X-Robots-Tag "noindex, noarchive, nosnippet" </IfModule> </FilesMatch>

Il est censé noindex tous les PDF du site Web.

Cependant, les fichiers PDF sont toujours là et fonctionnent, et j'en suis sûr car:

ils apparaissent toujours dans les SERPs
ils sont verts dans la console de recherche
la vérification d'en-tête n'affiche aucune commande sur noindexing

Comment est-ce possible? Mon hypothèse est qu'il y a un conflit dans le code . Htaccess .

Le robots.txt fichier:

User-agent: * Allow: /wp-admin/admin-ajax.php Disallow: /web_service/ Disallow: /wp-admin/ Disallow: /xmlrpc.php Sitemap: https://www.example.com/sitemap.xml

Stephen Ostermiller · Answer

Votre en-tête ne parvient pas à vos documents. J'ai essayé curl --head 'https://www.aurigaspa.com/wp-content/uploads/Top-Banking-Trends-for-2019-and-How-Banks-Need-to-Prepare-White-Paper-Auriga.pdf' curl est un programme en ligne de commande. Vous pouvez l'exécuter vous-même après SSHing sur votre serveur, ou vous pouvez le télécharger et l'installer sur votre ordinateur personnel.

Je suppose que mod_headers n'est pas installé ou n'est pas activé. Vous avez la condition <IfModule mod_headers.c> dans vos règles. Cela entraînera le silence de votre directive si mod_headers n'est pas installé ou activé.

Je suggère de changer votre .htaccess en:

<FilesMatch ".pdf$"> Header set X-Robots-Tag "noindex, noarchive, nosnippet" </FilesMatch>

Cela pourrait rendre votre site Web indisponible. Si cela se produit, vous savez que vous devez installer ou activer mod_headers. Voir Comment installer mod_headers sur ServerFault.