Charger CSV dans Pandas MultiIndex DataFrame

Question

J'ai un fichier CSV de 719 Mo qui ressemble à:

from, to, dep, freq, arr, code, mode (header row) RGBOXFD,RGBPADTON,127,0,27,99999,2 RGBOXFD,RGBPADTON,127,0,33,99999,2 RGBOXFD,RGBRDLEY,127,0,1425,99999,2 RGBOXFD,RGBCHOLSEY,127,0,52,99999,2 RGBOXFD,RGBMDNHEAD,127,0,91,99999,2 RGBDIDCOTP,RGBPADTON,127,0,46,99999,2 RGBDIDCOTP,RGBPADTON,127,0,3,99999,2 RGBDIDCOTP,RGBCHOLSEY,127,0,61,99999,2 RGBDIDCOTP,RGBRDLEY,127,0,1430,99999,2 RGBDIDCOTP,RGBPADTON,127,0,115,99999,2 and so on...

Je veux charger dans un pandas DataFrame. Maintenant je sais qu'il y a une charge de la méthode csv:

 r = pd.DataFrame.from_csv('test_data2.csv')

Mais je veux spécifiquement le charger en tant que DataFrame 'MultiIndex' d'où et vers les index:

Donc, se retrouver avec:

 dep, freq, arr, code, mode RGBOXFD RGBPADTON 127 0 27 99999 2 RGBRDLEY 127 0 33 99999 2 RGBCHOLSEY 127 0 1425 99999 2 RGBMDNHEAD 127 0 1525 99999 2

etc. Je ne sais pas comment faire ça?

DSM · Accepted Answer

Vous pouvez utiliser pd.read_csv :

>>> df = pd.read_csv("test_data2.csv", index_col=[0,1], skipinitialspace=True) >>> df dep freq arr code mode from to RGBOXFD RGBPADTON 127 0 27 99999 2 RGBPADTON 127 0 33 99999 2 RGBRDLEY 127 0 1425 99999 2 RGBCHOLSEY 127 0 52 99999 2 RGBMDNHEAD 127 0 91 99999 2 RGBDIDCOTP RGBPADTON 127 0 46 99999 2 RGBPADTON 127 0 3 99999 2 RGBCHOLSEY 127 0 61 99999 2 RGBRDLEY 127 0 1430 99999 2 RGBPADTON 127 0 115 99999 2

où j'ai utilisé skipinitialspace=True pour se débarrasser de ces espaces ennuyeux dans la ligne d'en-tête.

7stud · Answer

from_csv () fonctionne de la même manière:

import pandas as pd df = pd.DataFrame.from_csv( 'data.txt', index_col = [0, 1] ) print df --output:-- dep freq arr code mode from to RGBOXFD RGBPADTON 127 0 27 99999 2 RGBPADTON 127 0 33 99999 2 RGBRDLEY 127 0 1425 99999 2 RGBCHOLSEY 127 0 52 99999 2 RGBMDNHEAD 127 0 91 99999 2 RGBDIDCOTP RGBPADTON 127 0 46 99999 2 RGBPADTON 127 0 3 99999 2 RGBCHOLSEY 127 0 61 99999 2 RGBRDLEY 127 0 1430 99999 2 RGBPADTON 127 0 115 99999 2

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_csv.html#pandas.DataFrame.from_csv

De cette discussion,

https://github.com/pydata/pandas/issues/4916

il semble que read_csv () ait été implémenté pour vous permettre de définir plus d'options, ce qui rend from_csv () superflu.