web-dev-qa-db-fra.com

Comment ajouter une colonne supplémentaire à un tableau NumPy

Disons que j’ai un tableau NumPy, a:

a = np.array([
    [1, 2, 3],
    [2, 3, 4]
    ])

Et je voudrais ajouter une colonne de zéros pour obtenir un tableau, b:

b = np.array([
    [1, 2, 3, 0],
    [2, 3, 4, 0]
    ])

Comment puis-je faire cela facilement dans NumPy?

260
Peter Smit

Je pense qu'une solution plus simple et plus rapide à démarrer est la suivante:

import numpy as np
N = 10
a = np.random.Rand(N,N)
b = np.zeros((N,N+1))
b[:,:-1] = a

Et les horaires:

In [23]: N = 10

In [24]: a = np.random.Rand(N,N)

In [25]: %timeit b = np.hstack((a,np.zeros((a.shape[0],1))))
10000 loops, best of 3: 19.6 us per loop

In [27]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 5.62 us per loop
158
JoshAdel

np.r_[ ... ] et np.c_[ ... ] sont des alternatives utiles à vstack et hstack, avec des crochets [] au lieu de round ().
Quelques exemples:

: import numpy as np
: N = 3
: A = np.eye(N)

: np.c_[ A, np.ones(N) ]              # add a column
array([[ 1.,  0.,  0.,  1.],
       [ 0.,  1.,  0.,  1.],
       [ 0.,  0.,  1.,  1.]])

: np.c_[ np.ones(N), A, np.ones(N) ]  # or two
array([[ 1.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  1.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  1.]])

: np.r_[ A, [A[1]] ]              # add a row
array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  1.,  0.]])
: # not np.r_[ A, A[1] ]

: np.r_[ A[0], 1, 2, 3, A[1] ]    # mix vecs and scalars
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], [1, 2, 3], A[1] ]  # lists
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], (1, 2, 3), A[1] ]  # tuples
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], 1:4, A[1] ]        # same, 1:4 == arange(1,4) == 1,2,3
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

(La raison pour laquelle les crochets [] au lieu de round () est que Python s’agrandit, par exemple, avec un décalage de 1: 4 - les merveilles de la surcharge.)

275
denis

Utilisez numpy.append:

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])

>>> z = np.zeros((2,1), dtype=int64)
>>> z
array([[0],
       [0]])

>>> np.append(a, z, axis=1)
array([[1, 2, 3, 0],
       [2, 3, 4, 0]])
132
gemy

Une façon, en utilisant hstack , est:

b = np.hstack((a, np.zeros((a.shape[0], 1), dtype=a.dtype)))
48
Peter Smit

Je trouve ce qui suit le plus élégant:

b = np.insert(a, 3, values=0, axis=1) # Insert values before column 3

Un avantage de insert est qu'il vous permet également d'insérer des colonnes (ou des lignes) à d'autres endroits dans le tableau. De plus, au lieu d'insérer une seule valeur, vous pouvez facilement insérer un vecteur entier, par exemple dupliquer la dernière colonne:

b = np.insert(a, insert_index, values=a[:,2], axis=1)

Qui conduit à:

array([[1, 2, 3, 3],
       [2, 3, 4, 4]])

Pour le timing, insert pourrait être plus lent que la solution de JoshAdel:

In [1]: N = 10

In [2]: a = np.random.Rand(N,N)

In [3]: %timeit b = np.hstack((a, np.zeros((a.shape[0], 1))))
100000 loops, best of 3: 7.5 µs per loop

In [4]: %timeit b = np.zeros((a.shape[0], a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 2.17 µs per loop

In [5]: %timeit b = np.insert(a, 3, values=0, axis=1)
100000 loops, best of 3: 10.2 µs per loop
33
Björn

J'étais également intéressé par cette question et comparais la vitesse de

numpy.c_[a, a]
numpy.stack([a, a]).T
numpy.vstack([a, a]).T
numpy.ascontiguousarray(numpy.stack([a, a]).T)               
numpy.ascontiguousarray(numpy.vstack([a, a]).T)
numpy.column_stack([a, a])
numpy.concatenate([a[:,None], a[:,None]], axis=1)
numpy.concatenate([a[None], a[None]], axis=0).T

qui font tous la même chose pour n'importe quel vecteur d'entrée a. Délais de croissance a:

enter image description here

Notez que toutes les variantes non contiguës (en particulier stack/vstack) sont finalement plus rapides que toutes les variantes contiguës. column_stack (pour sa clarté et sa rapidité) semble être une bonne option si vous avez besoin de contiguïté.


Code pour reproduire l'intrigue:

import numpy
import perfplot

perfplot.show(
    setup=lambda n: numpy.random.Rand(n),
    kernels=[
        lambda a: numpy.c_[a, a],
        lambda a: numpy.ascontiguousarray(numpy.stack([a, a]).T),
        lambda a: numpy.ascontiguousarray(numpy.vstack([a, a]).T),
        lambda a: numpy.column_stack([a, a]),
        lambda a: numpy.concatenate([a[:, None], a[:, None]], axis=1),
        lambda a: numpy.ascontiguousarray(numpy.concatenate([a[None], a[None]], axis=0).T),
        lambda a: numpy.stack([a, a]).T,
        lambda a: numpy.vstack([a, a]).T,
        lambda a: numpy.concatenate([a[None], a[None]], axis=0).T,
        ],
    labels=[
        'c_', 'ascont(stack)', 'ascont(vstack)', 'column_stack', 'concat',
        'ascont(concat)', 'stack (non-cont)', 'vstack (non-cont)',
        'concat (non-cont)'
        ],
    n_range=[2**k for k in range(20)],
    xlabel='len(a)',
    logx=True,
    logy=True,
    )
29
Nico Schlömer

Je pense:

np.column_stack((a, zeros(shape(a)[0])))

est plus élégant.

27
user2820502

np.concatenate fonctionne aussi

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])
>>> z = np.zeros((2,1))
>>> z
array([[ 0.],
       [ 0.]])
>>> np.concatenate((a, z), axis=1)
array([[ 1.,  2.,  3.,  0.],
       [ 2.,  3.,  4.,  0.]])
11
han4wluc

En supposant que M soit un (100,3) ndarray et que y soit un (100,) ndarray append puisse être utilisé comme suit:

M=numpy.append(M,y[:,None],1)

L'astuce consiste à utiliser

y[:, None]

Ceci convertit y en un tableau 2D (100, 1).

M.shape

donne maintenant

(100, 4)
9
Roel Verhoeven

J'aime la réponse de JoshAdel en raison de l'accent mis sur la performance. Une amélioration mineure des performances consiste à éviter la surcharge liée à l’initialisation avec des zéros, mais seulement à l’écraser. Cela a une différence mesurable lorsque N est grand, on utilise vide, à la place de zéros, et la colonne de zéros est écrite comme une étape distincte:

In [1]: import numpy as np

In [2]: N = 10000

In [3]: a = np.ones((N,N))

In [4]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
1 loops, best of 3: 492 ms per loop

In [5]: %timeit b = np.empty((a.shape[0],a.shape[1]+1)); b[:,:-1] = a; b[:,-1] = np.zeros((a.shape[0],))
1 loops, best of 3: 407 ms per loop
8
toddInPortland

np.insert sert également l'objectif.

_matA = np.array([[1,2,3], 
                 [2,3,4]])
idx = 3
new_col = np.array([0, 0])
np.insert(matA, idx, new_col, axis=1)

array([[1, 2, 3, 0],
       [2, 3, 4, 0]])
_

Il insère des valeurs, ici _new_col_, avant un index donné, ici idx le long d'un axe. En d'autres termes, les valeurs nouvellement insérées occuperont la colonne idx et déplaceront ce qui était initialement là à et après idx en arrière.

5
Tai

Un peu tard pour le parti, mais personne n’a encore posté cette réponse. Par souci d’exhaustivité, vous pouvez le faire avec des listes compréhensives, sur un simple tableau Python:

source = a.tolist()
result = [row + [0] for row in source]
b = np.array(result)
4
btk

Dans mon cas, je devais ajouter une colonne de uns à un tableau NumPy

X = array([ 6.1101, 5.5277, ... ])
X.shape => (97,)
X = np.concatenate((np.ones((m,1), dtype=np.int), X.reshape(m,1)), axis=1)

Après X.shape => (97, 2)

array([[ 1. , 6.1101],
       [ 1. , 5.5277],
...
3
Mircea Stanciu

Il existe une fonction spécifique pour cela. Il s'appelle numpy.pad

a = np.array([[1,2,3], [2,3,4]])
b = np.pad(a, ((0, 0), (0, 1)), mode='constant', constant_values=0)
print b
>>> array([[1, 2, 3, 0],
           [2, 3, 4, 0]])

Voici ce qu'il dit dans la docstring:

Pads an array.

Parameters
----------
array : array_like of rank N
    Input array
pad_width : {sequence, array_like, int}
    Number of values padded to the edges of each axis.
    ((before_1, after_1), ... (before_N, after_N)) unique pad widths
    for each axis.
    ((before, after),) yields same before and after pad for each axis.
    (pad,) or int is a shortcut for before = after = pad width for all
    axes.
mode : str or function
    One of the following string values or a user supplied function.

    'constant'
        Pads with a constant value.
    'Edge'
        Pads with the Edge values of array.
    'linear_ramp'
        Pads with the linear ramp between end_value and the
        array Edge value.
    'maximum'
        Pads with the maximum value of all or part of the
        vector along each axis.
    'mean'
        Pads with the mean value of all or part of the
        vector along each axis.
    'median'
        Pads with the median value of all or part of the
        vector along each axis.
    'minimum'
        Pads with the minimum value of all or part of the
        vector along each axis.
    'reflect'
        Pads with the reflection of the vector mirrored on
        the first and last values of the vector along each
        axis.
    'symmetric'
        Pads with the reflection of the vector mirrored
        along the Edge of the array.
    'wrap'
        Pads with the wrap of the vector along the axis.
        The first values are used to pad the end and the
        end values are used to pad the beginning.
    <function>
        Padding function, see Notes.
stat_length : sequence or int, optional
    Used in 'maximum', 'mean', 'median', and 'minimum'.  Number of
    values at Edge of each axis used to calculate the statistic value.

    ((before_1, after_1), ... (before_N, after_N)) unique statistic
    lengths for each axis.

    ((before, after),) yields same before and after statistic lengths
    for each axis.

    (stat_length,) or int is a shortcut for before = after = statistic
    length for all axes.

    Default is ``None``, to use the entire axis.
constant_values : sequence or int, optional
    Used in 'constant'.  The values to set the padded values for each
    axis.

    ((before_1, after_1), ... (before_N, after_N)) unique pad constants
    for each axis.

    ((before, after),) yields same before and after constants for each
    axis.

    (constant,) or int is a shortcut for before = after = constant for
    all axes.

    Default is 0.
end_values : sequence or int, optional
    Used in 'linear_ramp'.  The values used for the ending value of the
    linear_ramp and that will form the Edge of the padded array.

    ((before_1, after_1), ... (before_N, after_N)) unique end values
    for each axis.

    ((before, after),) yields same before and after end values for each
    axis.

    (constant,) or int is a shortcut for before = after = end value for
    all axes.

    Default is 0.
reflect_type : {'even', 'odd'}, optional
    Used in 'reflect', and 'symmetric'.  The 'even' style is the
    default with an unaltered reflection around the Edge value.  For
    the 'odd' style, the extented part of the array is created by
    subtracting the reflected values from two times the Edge value.

Returns
-------
pad : ndarray
    Padded array of rank equal to `array` with shape increased
    according to `pad_width`.

Notes
-----
.. versionadded:: 1.7.0

For an array with rank greater than 1, some of the padding of later
axes is calculated from padding of previous axes.  This is easiest to
think about with a rank 2 array where the corners of the padded array
are calculated by using padded values from the first axis.

The padding function, if used, should return a rank 1 array equal in
length to the vector argument with padded values replaced. It has the
following signature::

    padding_func(vector, iaxis_pad_width, iaxis, kwargs)

where

    vector : ndarray
        A rank 1 array already padded with zeros.  Padded values are
        vector[:pad_Tuple[0]] and vector[-pad_Tuple[1]:].
    iaxis_pad_width : Tuple
        A 2-Tuple of ints, iaxis_pad_width[0] represents the number of
        values padded at the beginning of vector where
        iaxis_pad_width[1] represents the number of values padded at
        the end of vector.
    iaxis : int
        The axis currently being calculated.
    kwargs : dict
        Any keyword arguments the function requires.

Examples
--------
>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2,3), 'constant', constant_values=(4, 6))
array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])

>>> np.pad(a, (2, 3), 'Edge')
array([1, 1, 1, 2, 3, 4, 5, 5, 5, 5])

>>> np.pad(a, (2, 3), 'linear_ramp', end_values=(5, -4))
array([ 5,  3,  1,  2,  3,  4,  5,  2, -1, -4])

>>> np.pad(a, (2,), 'maximum')
array([5, 5, 1, 2, 3, 4, 5, 5, 5])

>>> np.pad(a, (2,), 'mean')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> np.pad(a, (2,), 'median')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> a = [[1, 2], [3, 4]]
>>> np.pad(a, ((3, 2), (2, 3)), 'minimum')
array([[1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [3, 3, 3, 4, 3, 3, 3],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1]])

>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2, 3), 'reflect')
array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2])

>>> np.pad(a, (2, 3), 'reflect', reflect_type='odd')
array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8])

>>> np.pad(a, (2, 3), 'symmetric')
array([2, 1, 1, 2, 3, 4, 5, 5, 4, 3])

>>> np.pad(a, (2, 3), 'symmetric', reflect_type='odd')
array([0, 1, 1, 2, 3, 4, 5, 5, 6, 7])

>>> np.pad(a, (2, 3), 'wrap')
array([4, 5, 1, 2, 3, 4, 5, 1, 2, 3])

>>> def pad_with(vector, pad_width, iaxis, kwargs):
...     pad_value = kwargs.get('padder', 10)
...     vector[:pad_width[0]] = pad_value
...     vector[-pad_width[1]:] = pad_value
...     return vector
>>> a = np.arange(6)
>>> a = a.reshape((2, 3))
>>> np.pad(a, 2, pad_with)
array([[10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10,  0,  1,  2, 10, 10],
       [10, 10,  3,  4,  5, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10]])
>>> np.pad(a, 2, pad_with, padder=100)
array([[100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100,   0,   1,   2, 100, 100],
       [100, 100,   3,   4,   5, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100]])
2
Ivan Hoffmann

Pour moi, le chemin suivant semble assez intuitif et simple.

zeros = np.zeros((2,1)) #2 is a number of rows in your array.   
b = np.hstack((a, zeros))
1
Shimon S

Ajoutez une colonne supplémentaire à un tableau numpy:

La méthode np.append de Numpy prend trois paramètres, les deux premiers sont des tableaux 2D numpy et le troisième est un paramètre d'axe indiquant le long de l'axe à ajouter:

import numpy as np  
x = np.array([[1,2,3], [4,5,6]]) 
print("Original x:") 
print(x) 

y = np.array([[1], [1]]) 
print("Original y:") 
print(y) 

print("x appended to y on axis of 1:") 
print(np.append(x, y, axis=1)) 

Impressions:

Original x:
[[1 2 3]
 [4 5 6]]
Original y:
[[1]
 [1]]
x appended to y on axis of 1:
[[1 2 3 1]
 [4 5 6 1]]
0
Hassan Bahaloo