Erreur urllib.request Python 3.4 (http 403)

Question

J'essaie d'ouvrir et d'analyser une page HTML. En python 2.7.8 je n'ai aucun problème:

import urllib url = "https://ipdb.at/ip/66.196.116.112" html = urllib.urlopen(url).read()

et tout va bien. Cependant, je veux passer à python 3.4 et j'obtiens l'erreur HTTP 403 (interdit). Mon code:

import urllib.request html = urllib.request.urlopen(url) # same URL as before File "C:\Python34\lib\urllib\request.py", line 153, in urlopen return opener.open(url, data, timeout) File "C:\Python34\lib\urllib\request.py", line 461, in open response = meth(req, response) File "C:\Python34\lib\urllib\request.py", line 574, in http_response 'http', request, response, code, msg, hdrs) File "C:\Python34\lib\urllib\request.py", line 499, in error return self._call_chain(*args) File "C:\Python34\lib\urllib\request.py", line 433, in _call_chain result = func(*args) File "C:\Python34\lib\urllib\request.py", line 582, in http_error_default raise HTTPError(req.full_url, code, msg, hdrs, fp) urllib.error.HTTPError: HTTP Error 403: Forbidden

Cela fonctionne pour d'autres URL qui n'utilisent pas https.

url = 'http://www.stopforumspam.com/ipcheck/212.91.188.166'

est ok.

falsetru · Accepted Answer

Il semble que le site n'aime pas l'agent utilisateur de Python 3.x.

Spécifier User-Agent résoudra votre problème:

import urllib.request req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'}) html = urllib.request.urlopen(req).read()

NOTELa version urllib Python 2.x reçoit également le statut 403, mais contrairement à Python 2.x urllib2 et Python 3.x urllib, elle ne déclenche pas l'exception.

Vous pouvez le confirmer en utilisant le code suivant:

print(urllib.urlopen(url).getcode()) # => 403

user5870134 · Answer

Voici quelques notes que j'ai rassemblées sur urllib lorsque j'étudiais python-3:
Je les ai conservés au cas où ils pourraient être utiles ou aider quelqu'un d'autre.

Comment importer `urllib.request` et `urllib.parse`:

import urllib.request as urlRequest import urllib.parse as urlParse

Comment faire une demande GET:

url = "http://www.example.net" # open the url x = urlRequest.urlopen(url) # get the source code sourceCode = x.read()

Comment faire une demande POST:

url = "https://www.example.com" values = {"q": "python if"} # encode values for the url values = urlParse.urlencode(values) # encode the values in UTF-8 format values = values.encode("UTF-8") # create the url targetUrl = urlRequest.Request(url, values) # open the url x = urlRequest.urlopen(targetUrl) # get the source code sourceCode = x.read()

Comment faire une demande POST (réponses `403 forbidden`):

url = "https://www.example.com" values = {"q": "python urllib"} # pretend to be a chrome 47 browser on a windows 10 machine headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"} # encode values for the url values = urlParse.urlencode(values) # encode the values in UTF-8 format values = values.encode("UTF-8") # create the url targetUrl = urlRequest.Request(url = url, data = values, headers = headers) # open the url x = urlRequest.urlopen(targetUrl) # get the source code sourceCode = x.read()

Comment faire une demande GET (réponses `403 forbidden`):

url = "https://www.example.com" # pretend to be a chrome 47 browser on a windows 10 machine headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"} req = urlRequest.Request(url, headers = headers) # open the url x = urlRequest.urlopen(req) # get the source code sourceCode = x.read()

Erreur urllib.request Python 3.4 (http 403)

Comment importer urllib.request et urllib.parse:

Comment faire une demande GET:

Comment faire une demande POST:

Comment faire une demande POST (réponses 403 forbidden):

Comment faire une demande GET (réponses 403 forbidden):

Comment importer `urllib.request` et `urllib.parse`:

Comment faire une demande POST (réponses `403 forbidden`):

Comment faire une demande GET (réponses `403 forbidden`):