web-dev-qa-db-fra.com

Comment un attaquant peut-il utiliser robots.txt?

Je veux comprendre comment le fichier robots.txt peut être utilisé par un attaquant. Je sais qu'il peut contenir une liste de chemins et de répertoires. Est-ce tout ou pouvons-nous y trouver plus d'informations?

30
human_garbage

C'est tout. Ce que vous voyez dans robots.txt est tout ce qu'il y a.

Ce qui le rend utile pour les attaquants, c'est que les administrateurs de site utilisent parfois robots.txt pour masquer les informations sensibles. Si " https://www.example.com/sensitive_info " doit rester masqué, il ne doit pas être exploré par les bots, il doit donc être dans robots.txt. Cependant, le mettre là l'expose également aux attaquants.

48
Sjoerd

Le développeur Web ou l'administrateur Web pense que le fichier robots.txt sert uniquement à indiquer aux robots d'indexation ce qu'il faut regarder et ce qu'il faut éviter. C'est en fait une bonne partie.

Mais voici la prise. Les pentesters incluent toujours la vérification de robots.txt pour recueillir des informations sensibles ou obtenir des informations sur des chemins qui sont même difficiles à deviner. Donc, faciliter le travail des Pentesters.

Une information comme celle-ci donnerait à un attaquant une idée de la technologie que vous utilisez et du chemin à rechercher.

User-Agent: *
Disallow: /extend/themes/search.php
Disallow: /themes/search.php
Disallow: /support/rss
Disallow: /archive/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/ 

Ici/wp-admin/est de l'intérêt de l'attaquant. Et parfois, vous obtiendrez des chemins si facilement, ce qui serait autrement difficile pour les robots aussi!.

Même nmap a un script pour vérifier toutes les vulnérabilités qui y sont liées.

nmap -sV --script http-wordpress-enum <target>

Même les portswiggers ont un article dessus. Veuillez parcourir ceci pour comprendre pourquoi et ce que vous devez réellement écrire dans robots.txt du point de vue de la sécurité. portswigger robots.txt ko

15
Jassi

Une classe d'attaques perpétrée par /robots.txt est une attaque contre la disponibilité d'archives d'informations précédemment accessibles au public sous un nom de domaine.

Un spéculateur peut extorquer une rançon à l'ancien propriétaire d'un nom de domaine

Lorsqu'un nom de domaine change de mains, son nouveau propriétaire peut réécrire /robots.txt pour conseiller aux moteurs de recherche et aux services d'archivage de ne pas indexer les chemins sur les serveurs Web dans les origines de ce nom de domaine. De nombreux spéculateurs achèteront des noms de domaine sur un liste déroulante immédiatement après leur expiration, en changeant / à un avis de stationnement sur un serveur Web léger et /robots.txt aux éléments suivants pour empêcher les robots des moteurs de recherche de surcharger le serveur de trafic:

User-agent: *
Disallow: /

Mais une fois que le service Wayback Machine d'Internet Archive a archivé un document HTML, il utilisait le contenu actuel de /robots.txt, pas le contenu au moment où le site a été archivé, pour déterminer s'il convient ou non de le mettre à la disposition du public. Cela signifie que le nouveau propriétaire d'un nom de domaine pourrait réécrire /robots.txt pour que Wayback Machine refuse l'accès à l'archive jusqu'à ce que le propriétaire précédent rachète le nom de domaine au spéculateur à un taux exorbitant.

Un propriétaire de site peut dissimuler des déclarations de politique antérieures

Lorsqu'une entreprise ou un organisme gouvernemental est placé sous une nouvelle direction, il peut être difficile ou impossible de récupérer les déclarations de politique de la direction précédente. L'administration Bush a été accusée à plusieurs reprises d'utiliser /robots.txt pour couvrir les documents relatifs à l'implication militaire des États-Unis en Irak en 2003 et 2007 ( # 1 , # 2 , # ). Et lorsque Barack Obama était sur le point de quitter ses fonctions de président des États-Unis en 2016, le public a émis l'hypothèse que la nouvelle administration tenterait d'effacer les informations fournies par l'administration Obama concernant la protection de l'environnement et d'autres causes peu attrayantes pour le parti politique de Trump, comme - rapporté par Valerie Volcovici de Reuters . Pour cette raison, Internet Archive explore .gov plus en détail à la fin de chaque trimestre .

Wayback Machine a changé sa politique

Lorsque Internet Archive a appris ces attaques de rançon et de trous de mémoire, il a changé la façon dont Wayback Machine interprète l'actuel /robots.txt, d'abord sur les sites gouvernementaux et militaires américains et plus tard sur le Web en général . Au lieu de cela, depuis quelque temps en 2017, Internet Archive utilise une adresse e-mail pour les opérateurs de site pour demander l'exclusion de Wayback Machine.

4
Damian Yerrick

Si vous le vérifiez manuellement, il vous fournit plus d'informations à vérifier. Il indique à votre robot Web quels liens il doit éviter d'analyser.

2
user218274