web-dev-qa-db-fra.com

Refuser l'accès à Archive.is

Je voudrais refuser archive.is d'avoir accès à mon site Web. (Je ne veux pas que ce site cache le mien sans mon consentement).

Savez-vous si c'est possible?

8
someone2332

D'accord. Ceci est nouveau (du moins pour moi) et assez intéressant jusqu'à présent. Je ne vais pas entrer dans les mauvaises herbes à ce sujet.

Quand j'ai écrit ceci, je travaillais sur peu ou pas de sommeil. J'ai raté quelques points que @unor a gentiment fait remarquer et je dois donc tempérer ma réponse et donner crédit à l'endroit où le crédit est dû. Merci @unor!

Archive.is est enregistré auprès de Denis Petrov qui utilise un compte Google Webhost à l'adresse IP 104.196.7.222 [AS15169 GOOGLE - Google Inc.] selon les outils de domaine, même si je l'ai sous le 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY B.V.]. Il est probable que la société hôte a récemment changé.

Archive.today appartient également à Denis Petrov et est similaire à Archive.is sinon identique. Pour les besoins de cette réponse, je vais aborder Archive.is et vous pouvez supposer que cela s'applique à Archive.today. Archive.today existe sur une autre adresse IP 78.108.190.21 [AS62160 GM-AS Oui Networks Unlimited Ltd]. S'il vous plaît, comprenez que Denis Petrov possède 70 domaines. Sans aller plus loin, il est possible qu'il y ait plus de sites sur lesquels on peut s'inquiéter. Je vais fournir un code de blocage pour les trois adresses IP.

Archive.is est dirigé par l'utilisateur. Il est supposé que vous archivez votre propre page. En dehors de ce scénario, Archive.is peut être considéré comme un site de spam contenant du spraisseur de contenu.

Archive.is parcourt une ligne dangereuse. Il utilise le contenu d'autres sites par le biais du grattage d'une seule page. En fin de compte, le potentiel de recherche du contenu d'origine est au moins dilué et potentiellement usurpé. Pire encore, le site d'origine n'est pas cité comme l'initiateur du contenu. Archive.is utilise une balise canonique, mais il appartient à son propre site/page.

Exemple: <link rel="canonical" href="http://archive.is/Eo267"/>

Ceci ajouté au manque de contrôle sur les personnes soumettant un site et leur droit d'accès au site, le manque d'informations de retrait claires et le mécanisme de contact quelque peu flou et potentiellement faible, Archive.is a le potentiel de véritablement difficulté.

Vous pouvez trouver plus d’informations sur l’adresse IP ici: https://www.robtex.com/#!dns=archive.is

Comment bloquer par adresse IP 78.108.190.21.

Utilisation de Cisco Firewall.

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

** Remarque: vous pouvez remplacer le [nom ACL fourni] par le nom ACL de votre choix.

Utilisation de Nginx.

Editez nginx.conf et insérez include blockips.conf; si ça n'existe pas. Editez blockips.conf et ajoutez ce qui suit:

deny 78.108.190.21/32;

Utilisation du pare-feu IPTables sous Linux. ** Remarque: à utiliser avec prudence.

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

Utilisation de Microsoft IIS Web Server

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Utiliser Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

Comment bloquer par adresse IP 46.17.100.191.

Utilisation de Cisco Firewall.

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

** Remarque: vous pouvez remplacer le [nom ACL fourni] par le nom ACL de votre choix.

Utilisation de Nginx.

Editez nginx.conf et insérez include blockips.conf; si ça n'existe pas. Editez blockips.conf et ajoutez ce qui suit:

deny 46.17.100.191/32;

Utilisation du pare-feu IPTables sous Linux. ** Remarque: à utiliser avec prudence.

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

Utilisation de Microsoft IIS Web Server

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Utiliser Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

Comment bloquer par adresse IP 104.196.7.222.

Utilisation de Cisco Firewall.

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

** Remarque: vous pouvez remplacer le [nom ACL fourni] par le nom ACL de votre choix.

Utilisation de Nginx.

Editez nginx.conf et insérez include blockips.conf; si ça n'existe pas. Editez blockips.conf et ajoutez ce qui suit:

deny 104.196.7.222/32;

Utilisation du pare-feu IPTables sous Linux. ** Remarque: à utiliser avec prudence.

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

Utilisation de Microsoft IIS Web Server

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Utiliser Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

Vous devrez peut-être bloquer plusieurs adresses IP à partir de n'importe quel jeu de code. Ce n'est pas clair.

6
closetnoc

robots.txt

Archive.is n'utilise pas de bot qui explore de manière autonome les pages (par exemple, en suivant des hyperliens), donc robots.txt ne s'applique pas, car c'est toujours un utilisateur qui donne la commande d'archiver un certain page.

Pour la même raison, des services tels que Feedfetcher de Google ( Pourquoi Feedfetcher n'obéit-il pas à mon fichier robots.txt? ) et le Validateur du W3C ( détails ) n'obéissent pas à robots.txt.

Voir la FAQ de archive.is: Pourquoi archive.is n'obéit pas à robots.txt?

meta-robots/X-Robots-Tag

Je ne sais pas si archive.is doit (idéalement) respecter la valeur noindex ou noarchive dans meta-robots/X-Robots-Tag, ou si ces technologies s'appliquent également aux robots autonomes uniquement. Mais comme archive.is ne le documente pas, ils ne semblent pas le supporter actuellement.

(FWIW, chaque page archivée semble avoir un <meta name="robots" content="index,noarchive"/>.)

User-Agent

archive.is ne documente pas l'utilisation d'un certain User-Agent (ils ne s'identifient probablement pas pour obtenir les pages comme si elles étaient affichées par un navigateur habituel), vous ne pouvez donc pas l'utiliser pour bloquer leur accès. au niveau du serveur.

Bloquant leurs adresses IP

Donc comme ni robots.txt ni meta-robots/X-Robots-Tag ne fonctionnent ici, et vous ne pouvez pas les bloquer via leur User-Agent, vous devez bloquer les accès depuis archive.is IPs. Voir réponse de closetnoc à propos du blocage d’IP , mais sachez que cela pourrait bloquer plus que prévu et que vous ne pourriez jamais récupérer l’ensemble de leurs IP (et/ou rester à jour).

Note latérale: fonction de rapport

Chaque version archivée renvoie à un formulaire dans lequel vous pouvez signaler un éventuel abus (append /abuse), par exemple, avec les motifs "Problème de référencement" ou "Droit d'auteur". Mais je ne sais pas si ou comment ils gèrent ces cas.

3
unor

Pour bloquer les pratiques de vol dégoûtantes de archive.is (en ignorant le fichier robots.txt, en remplaçant le lien canonique, le faux agent utilisateur, aucun moyen d'effectuer une suppression à l'échelle du site), je souhaite ajouter ce qui suit aux solutions ci-dessus.

Trouver leurs adresses IP

Pour trouver leurs adresses IP, envoyez-leur une URL sous votre contrôle afin de pouvoir surveiller les journaux de votre serveur Web et savoir qui y a accédé. L'URL ne doit même pas exister, tant que le serveur Web reçoit la demande. (Il est donc préférable d'utiliser une page/url vide non existante.) Par exemple, utilisez une url du type: http://example.com/fuck-you-archive.is

Ensuite, vérifiez vos journaux pour voir qui a accédé à l'URL. Vous pouvez utiliser grep pour le vérifier:

grep "fuck-you-archive.is" web-server-log.txt

Une fois que vous avez l'adresse IP, vous pouvez la bloquer en utilisant les solutions des autres réponses. Et répétez ensuite le processus pour trouver les autres adresses IP qu'ils utilisent. Vous devez spécifier une autre URL pour leur demander d'effectuer à nouveau une requête HTTP. Par exemple, modifiez simplement http://example.com/fuck-you-archive.is en http : //example.com/fuck-you-archive.is? 2 etc.

Si vous ne souhaitez pas du tout exposer votre site Web lorsque vous essayez de trouver leurs adresses IP, vous pouvez utiliser ce site Web très pratique pour les requêtes HTTP: https://requestb.in exécutez are: create a RequestBin> soumettez le "BinURL" à Archive.is avec "? SomeRandomNumber" ajouté au BinURL> utilisez le "? inspect" de RequestBin pour surveiller la requête entrante de Archive.is et voir son adresse IP dans l'en-tête HTTP "Cf-Connecting-Ip". (Assurez-vous de ne pas envoyer l'URL "? Inspect" à Archive.is.) Répétez l'opération pour rechercher d'autres adresses IP en remplaçant "? SomeRandomNumber" par un autre numéro.

Bloquer leurs adresses ip

Notez qu'avec les tables IP, vous pouvez bloquer en utilisant

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

mais souvent, la chaîne "INPUT" est définie sur une stratégie "DROP" avec acceptation du trafic HTTP. Dans ce cas, vous devrez peut-être utiliser une opération prepend (insertion) au lieu d'une opération d'ajout, sinon elle n'est pas bloquée du tout:

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

Cependant, ils ont beaucoup d'adresses IP, il peut donc être plus facile de bloquer des plages IP complètes. Vous pouvez le faire facilement avec IPTables (sans avoir besoin de spécifier des masques de sous-réseau) en utilisant:

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

Cette plage (46.166.139.110-46.166.139.180) appartient en grande partie à eux, car j’ai vu plusieurs adresses entre 46.166.139.110 et 46.166.139.173.

Envoyer une plainte pour abus à leur hébergeur

Ils utilisent actuellement NFOrce en tant qu'hôte Web. Voir https://www.nforce.com/abuse pour savoir comment déposer une plainte à propos de Archive.is. Mentionnez: 1) l’URL de votre page Web que archive.is a volé, 2) mentionnez l’URL située sur archive.is qui contient le contenu volé, et 3) mentionnez les adresses IP qu’ils ont utilisées.

Vous pouvez également vous plaindre à Cloudflare, leur CDN, qui met en cache leurs pages et images volées pour des raisons de performances. https://www.cloudflare.com/abuse/

1
Devabc

Comme nous pouvons le constater, archive.is utilise DNS anycasting.

Si vous utilisez différents serveurs de noms (par exemple de https://www.lifewire.com/free-and-public-dns-servers-2626062 ), vous obtenez actuellement (2018-09-10) différentes adresses IP pour "archive.is" (Dig @NAMESERVER archive.is A)

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

J'ai utilisé abuse-contacts.abusix.org ( https://www.abusix.com/contactdb ) pour obtenir les contacts d'abus pour ces adresses IP:

[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]

Comme Cloudflare l'a signalé, archive.is abuse de ses "services" en utilisant un enregistrement DNS A qui n'a aucune fonctionnalité!

1
Schubi Duah

Pensez également à contacter les bureaux d'enregistrement sur www.isnic.is, le registre de domaine en Islande. isnic au point isnic est

L'Islande a une loi sur le droit d'auteur et le registre la reconnaît. Le registre existe depuis la fin des années 1980 et ne relève pas de l'ICANN.

0
respect copyright