Spécifier le type de données float32 avec pandas.read_csv sur pandas 0.10.1

Question

J'essaie de lire un fichier simple séparé par des espaces avec pandas read_csv méthode. Cependant, pandas ne semble pas obéir à mon argument dtype. Peut-être que je ne le spécifie pas correctement?

J'ai distillé mon appel un peu compliqué à read_csv à ce cas de test simple. J'utilise en fait l'argument converters dans mon scénario "réel", mais je l'ai supprimé pour plus de simplicité.

Ci-dessous ma session ipython:

>>> cat test.out a b 0.76398 0.81394 0.32136 0.91063 >>> import pandas >>> import numpy >>> x = pandas.read_csv('test.out', dtype={'a': numpy.float32}, delim_whitespace=True) >>> x a b 0 0.76398 0.81394 1 0.32136 0.91063 >>> x.a.dtype dtype('float64')

J'ai aussi essayé d'utiliser cela avec un dtype de numpy.int32 ou numpy.int64. Ces choix donnent lieu à une exception:

AttributeError: 'NoneType' object has no attribute 'dtype'

Je suppose que AttributeError est parce que pandas ne tentera pas automatiquement de convertir/tronquer les valeurs flottantes en un entier?

Je cours sur une machine 32 bits avec une version 32 bits de Python.

>>> !uname -a Linux ubuntu 3.0.0-13-generic #22-Ubuntu SMP Wed Nov 2 13:25:36 UTC 2011 i686 i686 i386 GNU/Linux >>> import platform >>> platform.architecture() ('32bit', 'ELF') >>> pandas.__version__ '0.10.1'

Jeff · Accepted Answer

0.10.1 ne supporte pas vraiment beaucoup float32

voir ceci http://pandas.pydata.org/pandas-docs/dev/whatsnew.html#dtype-specification

vous pouvez le faire en 0.11 comme ceci:

# dont' use dtype converters explicity for the columns you care about # they will be converted to float64 if possible, or object if they cannot df = pd.read_csv('test.csv'.....) #### this is optional and related to the issue you posted #### # force anything that is not a numeric to nan # columns are the list of columns that you are interesetd in df[columns] = df[columns].convert_objects(convert_numeric=True) # astype df[columns] = df[columns].astype('float32') see http://pandas.pydata.org/pandas-docs/dev/basics.html#object-conversion Its not as efficient as doing it directly in read_csv (but that requires some low-level changes)

J'ai confirmé qu'avec 0.11-dev, cela ne fonctionne pas (sur 32 bits et 64 bits, les résultats sont les mêmes)

In [5]: x = pd.read_csv(StringIO.StringIO(data), dtype={'a': np.float32}, delim_whitespace=True) In [6]: x Out[6]: a b 0 0.76398 0.81394 1 0.32136 0.91063 In [7]: x.dtypes Out[7]: a float32 b float64 dtype: object In [8]: pd.__version__ Out[8]: '0.11.0.dev-385ff82' In [9]: quit() vagrant@precise32:~/pandas$ uname -a Linux precise32 3.2.0-23-generic-pae #36-Ubuntu SMP Tue Apr 10 22:19:09 UTC 2012 i686 i686 i386 GNU/Linux

user1987630 · Answer

In [22]: df.a.dtype = pd.np.float32 In [23]: df.a.dtype Out[23]: dtype('float32')

ce qui précède fonctionne bien pour moi sous pandas 0.10.1