web-dev-qa-db-fra.com

JSON aux pandas DataFrame

Ce que j'essaie de faire est d'extraire les données d'altitude d'une API Google Maps le long d'un chemin spécifié par les coordonnées de latitude et de longitude, comme suit:

from urllib2 import Request, urlopen
import json

path1 = '42.974049,-81.205203|42.974298,-81.195755'
request=Request('http://maps.googleapis.com/maps/api/elevation/json?locations='+path1+'&sensor=false')
response = urlopen(request)
elevations = response.read()

Cela me donne une donnée qui ressemble à ceci:

elevations.splitlines()

['{',
 '   "results" : [',
 '      {',
 '         "elevation" : 243.3462677001953,',
 '         "location" : {',
 '            "lat" : 42.974049,',
 '            "lng" : -81.205203',
 '         },',
 '         "resolution" : 19.08790397644043',
 '      },',
 '      {',
 '         "elevation" : 244.1318664550781,',
 '         "location" : {',
 '            "lat" : 42.974298,',
 '            "lng" : -81.19575500000001',
 '         },',
 '         "resolution" : 19.08790397644043',
 '      }',
 '   ],',
 '   "status" : "OK"',
 '}']

en mettant en tant que DataFrame voici ce que je reçois:

enter image description here

pd.read_json(elevations)

et voici ce que je veux:

enter image description here

Je ne sais pas si cela est possible, mais ce que je recherche surtout, c'est un moyen de pouvoir rassembler les données d'élévation, de latitude et de longitude dans un cadre de données de pandas (il n'est pas nécessaire que les en-têtes soient mutilins).

Si quelqu'un peut aider ou donner des conseils sur l'utilisation de ces données, ce serait formidable! Si vous ne pouvez pas dire, je n'ai pas beaucoup travaillé avec les données JSON auparavant ...

MODIFIER:

Cette méthode n’est pas très attrayante mais semble fonctionner:

data = json.loads(elevations)
lat,lng,el = [],[],[]
for result in data['results']:
    lat.append(result[u'location'][u'lat'])
    lng.append(result[u'location'][u'lng'])
    el.append(result[u'elevation'])
df = pd.DataFrame([lat,lng,el]).T

finit par une base de données ayant des colonnes latitude, longitude, altitude

enter image description here

82
pbreach

J'ai trouvé une solution simple et rapide à ce que je voulais en utilisant la fonction json_normalize incluse dans la dernière version de pandas 0.13. 

from urllib2 import Request, urlopen
import json
from pandas.io.json import json_normalize

path1 = '42.974049,-81.205203|42.974298,-81.195755'
request=Request('http://maps.googleapis.com/maps/api/elevation/json?locations='+path1+'&sensor=false')
response = urlopen(request)
elevations = response.read()
data = json.loads(elevations)
json_normalize(data['results'])

Cela donne un cadre de données Nice aplati avec les données JSON que j'ai obtenues de l'API Google Maps.

106
pbreach

Vérifiez cette partie. 

# reading the JSON data using json.load()
file = 'data.json'
with open(file) as train_file:
    dict_train = json.load(train_file)

# converting json dataset from dictionary to dataframe
train = pd.DataFrame.from_dict(dict_train, orient='index')
train.reset_index(level=0, inplace=True)

J'espère que ça aide :)

14
Rishu

Vous pouvez d'abord importer vos données json dans un dictionnaire Python:

data = json.loads(elevations)

Puis modifiez les données à la volée:

for result in data['results']:
    result[u'lat']=result[u'location'][u'lat']
    result[u'lng']=result[u'location'][u'lng']
    del result[u'location']

Reconstruire la chaîne JSON:

elevations = json.dumps(data)

Finalement :

pd.read_json(elevations)

Vous pouvez également probablement éviter de sauvegarder les données dans une chaîne. Je suppose que Panda peut créer directement un DataFrame à partir d’un dictionnaire (je ne l’utilise plus depuis longtemps: p)

10
Raphaël Braud

Le problème est que le cadre de données contient plusieurs colonnes contenant des dessins contenant des dessins plus petits. Json utile est souvent fortement imbriqué. J'ai écrit de petites fonctions qui tirent les informations souhaitées dans une nouvelle colonne. De cette façon, je l'ai dans le format que je veux utiliser. 

for row in range(len(data)):
    #First I load the dict (one at a time)
    n = data.loc[row,'dict_column']
    #Now I make a new column that pulls out the data that I want.
    data.loc[row,'new_column'] = n.get('key')
4
billmanH

la solution de billmanH m'a aidé mais n'a pas fonctionné jusqu'à ce que je passe de:

n = data.loc[row,'json_column']

à:

n = data.iloc[[row]]['json_column']

voici le reste, la conversion en dictionnaire est utile pour travailler avec les données json.

import json

for row in range(len(data)):
    n = data.iloc[[row]]['json_column'].item()
    jsonDict = json.loads(n)
    if ('mykey' in jsonDict):
        display(jsonDict['mykey'])
1
niltoid

Voici une petite classe d’utilitaires qui convertit JSON en DataFrame et inversement: espérons que cela vous sera utile.

# -*- coding: utf-8 -*-
from pandas.io.json import json_normalize

class DFConverter:

    #Converts the input JSON to a DataFrame
    def convertToDF(self,dfJSON):
        return(json_normalize(dfJSON))

    #Converts the input DataFrame to JSON 
    def convertToJSON(self, df):
        resultJSON = df.to_json(orient='records')
        return(resultJSON)
1
Siva

Juste une nouvelle version de la réponse acceptée, car python3.x ne supporte pas urllib2

from requests import request
import json
from pandas.io.json import json_normalize

path1 = '42.974049,-81.205203|42.974298,-81.195755'
response=request(url='http://maps.googleapis.com/maps/api/elevation/json?locations='+path1+'&sensor=false', method='get')
elevations = response.json()
elevations
data = json.loads(elevations)
json_normalize(data['results'])
1
AB Abhi

Une fois que vous avez obtenu la DataFrame aplatie obtenue par la réponse acceptée, vous pouvez transformer les colonnes en MultiIndex ("en-tête multi-lignes fantaisie") comme ceci:

df.columns = pd.MultiIndex.from_tuples([Tuple(c.split('.')) for c in df.columns])
0
loganbvh
#Use the small trick to make the data json interpret-able
#Since your data is not directly interpreted by json.loads()

>>> import json
>>> f=open("sampledata.txt","r+")
>>> data = f.read()
>>> for x in data.split("\n"):
...     strlist = "["+x+"]"
...     datalist=json.loads(strlist)
...     for y in datalist:
...             print(type(y))
...             print(y)
...
...
<type 'dict'>
{u'0': [[10.8, 36.0], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'1': [[10.8, 36.1], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'2': [[10.8, 36.2], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'3': [[10.8, 36.300000000000004], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'4': [[10.8, 36.4], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'5': [[10.8, 36.5], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'6': [[10.8, 36.6], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'7': [[10.8, 36.7], {u'10': 0, u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'8': [[10.8, 36.800000000000004], {u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}
<type 'dict'>
{u'9': [[10.8, 36.9], {u'1': 0, u'0': 0, u'3': 0, u'2': 0, u'5': 0, u'4': 0, u'7': 0, u'6': 0, u'9': 0, u'8': 0}]}


0
MIKHIL NAGARALE