urllib2.HTTPError: Erreur HTTP 403: interdite

Question

J'essaie d'automatiser le téléchargement des données boursières historiques à l'aide de python. L'URL que j'essaie d'ouvrir répond avec un fichier CSV, mais je ne parviens pas à l'ouvrir avec urllib2. J'ai essayé de changer d'agent utilisateur comme spécifié dans quelques questions plus tôt, j'ai même essayé d'accepter les cookies de réponse, sans succès. Peux-tu aider s'il te plait.

Remarque: la même méthode fonctionne pour Yahoo Finance.

Code:

import urllib2,cookielib site= "http://www.nseindia.com/live_market/dynaContent/live_watch/get_quote/getHistoricalData.jsp?symbol=JPASSOCIAT&fromDate=1-JAN-2012&toDate=1-AUG-2012&datePeriod=unselected&hiddDwnld=true" hdr = {'User-Agent':'Mozilla/5.0'} req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req)

Erreur

Fichier "C:\Python27\lib\urllib2.py", ligne 527, dans http_error_default raise HTTPError (req.get_full_url (), code, msg, hdrs, fp) urllib2.HTTPError: Erreur HTTP 403: Interdit

Merci pour votre aide

andrean · Accepted Answer

En ajoutant quelques en-têtes supplémentaires, j'ai pu obtenir les données:

import urllib2,cookielib site= "http://www.nseindia.com/live_market/dynaContent/live_watch/get_quote/getHistoricalData.jsp?symbol=JPASSOCIAT&fromDate=1-JAN-2012&toDate=1-AUG-2012&datePeriod=unselected&hiddDwnld=true" hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 'Accept-Encoding': 'none', 'Accept-Language': 'en-US,en;q=0.8', 'Connection': 'keep-alive'} req = urllib2.Request(site, headers=hdr) try: page = urllib2.urlopen(req) except urllib2.HTTPError, e: print e.fp.read() content = page.read() print content

En fait, cela fonctionne uniquement avec cet en-tête supplémentaire:

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

Eish · Answer

Cela fonctionnera dans Python 3

import urllib.request user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7' url = "http://en.wikipedia.org/wiki/List_of_TCP_and_UDP_port_numbers" headers={'User-Agent':user_agent,} request=urllib.request.Request(url,None,headers) #The assembled request response = urllib.request.urlopen(request) data = response.read() # The data u need

djinn · Answer

Le site Web de NSE a changé et les anciens scripts sont semi-optimaux par rapport au site Web actuel. Cet extrait peut collecter des détails quotidiens de la sécurité. Les détails incluent le symbole, le type de sécurité, la clôture précédente, le prix d'ouverture, le prix élevé, le prix moyen, la quantité négociée, le chiffre d'affaires, le nombre de transactions, les quantités livrables et le ratio du pourcentage livré et comparé. Celles-ci sont présentées sous forme de liste de dictionnaires.

Version Python 3.X avec requêtes et BeautifulSoup

from requests import get from csv import DictReader from bs4 import BeautifulSoup as Soup from datetime import date from io import StringIO SECURITY_NAME="3MINDIA" # Change this to get quote for another stock START_DATE= date(2017, 1, 1) # Start date of stock quote data DD-MM-YYYY END_DATE= date(2017, 9, 14) # End date of stock quote data DD-MM-YYYY BASE_URL = "https://www.nseindia.com/products/dynaContent/common/productsSymbolMapping.jsp?symbol={security}&segmentLink=3&symbolCount=1&series=ALL&dateRange=+&fromDate={start_date}&toDate={end_date}&dataType=PRICEVOLUMEDELIVERABLE" def getquote(symbol, start, end): start = start.strftime("%-d-%-m-%Y") end = end.strftime("%-d-%-m-%Y") hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Referer': 'https://cssspritegenerator.com', 'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 'Accept-Encoding': 'none', 'Accept-Language': 'en-US,en;q=0.8', 'Connection': 'keep-alive'} url = BASE_URL.format(security=symbol, start_date=start, end_date=end) d = get(url, headers=hdr) soup = Soup(d.content, 'html.parser') payload = soup.find('div', {'id': 'csvContentDiv'}).text.replace(':', '
') csv = DictReader(StringIO(payload)) for row in csv: print({k:v.strip() for k, v in row.items()}) if __== '__main__': getquote(SECURITY_NAME, START_DATE, END_DATE)

En outre, il est relativement modulaire et prêt à être utilisé.