web-dev-qa-db-fra.com

Échantillon aléatoire d’un sous-ensemble d’une trame de données dans Pandas

Disons que j'ai un cadre de données avec 100 000 entrées et que vous voulez le scinder en 100 sections de 1 000 entrées.

Comment puis-je prendre un échantillon aléatoire de la taille 50 d'une des 100 sections. le jeu de données est déjà commandé, de sorte que les 1000 premiers résultats correspondent à la première section, à la suivante, etc.

merci beaucoup

21
WGP

Vous pouvez utiliser la méthode sample *:

In [11]: df = pd.DataFrame([[1, 2], [3, 4], [5, 6], [7, 8]], columns=["A", "B"])

In [12]: df.sample(2)
Out[12]:
   A  B
0  1  2
2  5  6

In [13]: df.sample(2)
Out[13]:
   A  B
3  7  8
0  1  2

* Sur l'une des sections DataFrames.

Remarque: Si la taille de l'échantillon est supérieure à celle du DataFrame, une erreur se produira, sauf si vous effectuez un échantillonnage avec remplacement.

In [14]: df.sample(5)
ValueError: Cannot take a larger sample than population when 'replace=False'

In [15]: df.sample(5, replace=True)
Out[15]:
   A  B
0  1  2
1  3  4
2  5  6
3  7  8
1  3  4
29
Andy Hayden

Une solution consiste à utiliser la fonction choice de numpy.

Disons que vous voulez 50 entrées sur 100, vous pouvez utiliser:

import numpy as np
chosen_idx = np.random.choice(1000, replace=False, size=50)
df_trimmed = df.iloc[chosen_idx]

Ceci ne tient bien sûr pas compte de votre structure de bloc. Si vous voulez un échantillon de 50 articles du bloc i par exemple, vous pouvez faire:

import numpy as np
block_start_idx = 1000 * i
chosen_idx = np.random.choice(1000, replace=False, size=50)
df_trimmed_from_block_i = df.iloc[block_start_idx + chosen_idx]
8
jpjandrade

C'est un bel endroit pour la récursion.

def main2():
    rows = 8  # say you have 8 rows, real data will need len(rows) for int
    rands = []
    for i in range(rows):
        gen = fun(rands)
        rands.append(gen)
    print(rands)  # now range through random values


def fun(rands):
    gen = np.random.randint(0, 8)
    if gen in rands:
        a = fun(rands)
        return a
    else: return gen


if __name__ == "__main__":
    main2()

output: [6, 0, 7, 1, 3, 5, 4, 2]

0
GeneralCode