web-dev-qa-db-fra.com

ImportHTML #VALUE! erreur pour une URL spécifique

J'essaie d'obtenir les données de http://wodindex.wikispaces.com/ dans mes feuilles de calcul. Également dans un sous-domaine différent de wikispaces.com , la capture ne fonctionne pas.

Essayer d'obtenir des données de ce site me donne une erreur #VALUE!, alors que la même formule utilisée avec une autre URL (Wikipedia) fonctionne.

Qu'est-ce qui cause cette erreur? Ce site est-il en quelque sorte protégé?

MWE: =ImportHTML("http://wodindex.wikispaces.com/";"list";1)

1
Gauwain

Il semble que wodindex.wikispaces.com tente de stocker un cookie, puis effectue quelques astuces de redirection sophistiquées, pour des raisons que je ne connais pas. La fonctionnalité derrière ImportHTML doit fonctionner comme un navigateur (ou au moins un client HTTP) et ne prend probablement pas en charge les cookies.

C'est ce que je reçois en exécutant wget http://wodindex.wikispaces.com:

--12:41:12--  http://wodindex.wikispaces.com/
           => `index.html'
Resolving wodindex.wikispaces.com... done.
Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://session.wikispaces.com/1/auth/auth?authToken=f7a1a3abdd9511c29392cf7000b27dd5 [fol
lowing]
--12:41:13--  https://session.wikispaces.com/1/auth/auth?authToken=f7a1a3abdd9511c29392cf7000b27dd5
           => `auth@authToken=f7a1a3abdd9511c29392cf7000b27dd5'
Resolving session.wikispaces.com... done.
Connecting to session.wikispaces.com[208.43.192.33]:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://wodindex.wikispaces.com/?responseToken=f7a1a3abdd9511c29392cf7000b27dd5 [following]

--12:41:14--  http://wodindex.wikispaces.com/?responseToken=f7a1a3abdd9511c29392cf7000b27dd5
           => `index.html@responseToken=f7a1a3abdd9511c29392cf7000b27dd5'
Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://wodindex.wikispaces.com/ [following]
http://wodindex.wikispaces.com/: Redirection cycle detected.

C:\Users\viramd>wget http://wodindex.wikispaces.com/
--12:42:28--  http://wodindex.wikispaces.com/
           => `index.html'
Resolving wodindex.wikispaces.com... done.
Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://session.wikispaces.com/1/auth/auth?authToken=2141639d8901c291dc288a940c9609e8 [fol
lowing]
--12:42:28--  https://session.wikispaces.com/1/auth/auth?authToken=2141639d8901c291dc288a940c9609e8
           => `auth@authToken=2141639d8901c291dc288a940c9609e8'
Resolving session.wikispaces.com... done.
Connecting to session.wikispaces.com[208.43.192.33]:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://wodindex.wikispaces.com/?responseToken=2141639d8901c291dc288a940c9609e8 [following]

--12:42:29--  http://wodindex.wikispaces.com/?responseToken=2141639d8901c291dc288a940c9609e8
           => `index.html@responseToken=2141639d8901c291dc288a940c9609e8'
Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://wodindex.wikispaces.com/ [following]
http://wodindex.wikispaces.com/: Redirection cycle detected.

Comme on peut le voir ici, la demande est redirigée vers session.wikispaces.com, qui possède une sorte de boucle de redirection, qui ne peut jamais se terminer.

Une "solution" à votre problème consiste à enregistrer le contenu de wodindex.wikispaces.com sur un autre serveur Web et à le récupérer à partir de cet emplacement. Mais je ne suis pas sûr que ce serait tout à fait légal.

2
Vidar S. Ramdal

J'ai essayé de reproduire vos découvertes et j'ai réussi !!

La seule conclusion logique à laquelle je puisse penser est que le site n'utilise pas les balises suivantes:

LISTE:

  • <UL>
  • <OL>
  • <DL>

TABLE:

  • <TABLE>
0
Jacob Jan Tuinstra