Comment diviser un jeu de données personnalisé en jeux de données d'apprentissage et de test?

Question

import pandas as pd import numpy as np import cv2 from torch.utils.data.dataset import Dataset class CustomDatasetFromCSV(Dataset): def __init__(self, csv_path, transform=None): self.data = pd.read_csv(csv_path) self.labels = pd.get_dummies(self.data['emotion']).as_matrix() self.height = 48 self.width = 48 self.transform = transform def __getitem__(self, index): pixels = self.data['pixels'].tolist() faces = [] for pixel_sequence in pixels: face = [int(pixel) for pixel in pixel_sequence.split(' ')] # print(np.asarray(face).shape) face = np.asarray(face).reshape(self.width, self.height) face = cv2.resize(face.astype('uint8'), (self.width, self.height)) faces.append(face.astype('float32')) faces = np.asarray(faces) faces = np.expand_dims(faces, -1) return faces, self.labels def __len__(self): return len(self.data)

C'est ce que j'ai pu faire en utilisant des références d'autres référentiels. Cependant, je souhaite scinder cet ensemble de données en train et test.

Comment puis-je faire cela dans cette classe? Ou dois-je créer un cours séparé pour le faire?

benjaminplanche · Accepted Answer

Utilisation de Pytorch SubsetRandomSampler :

import torch import numpy as np from torchvision import datasets from torchvision import transforms from torch.utils.data.sampler import SubsetRandomSampler class CustomDatasetFromCSV(Dataset): def __init__(self, csv_path, transform=None): self.data = pd.read_csv(csv_path) self.labels = pd.get_dummies(self.data['emotion']).as_matrix() self.height = 48 self.width = 48 self.transform = transform def __getitem__(self, index): # This method should return only 1 sample and label # (according to "index"), not the whole dataset # So probably something like this for you: pixel_sequence = self.data['pixels'][index] face = [int(pixel) for pixel in pixel_sequence.split(' ')] face = np.asarray(face).reshape(self.width, self.height) face = cv2.resize(face.astype('uint8'), (self.width, self.height)) label = self.labels[index] return face, label def __len__(self): return len(self.labels) dataset = CustomDatasetFromCSV(my_path) batch_size = 16 validation_split = .2 shuffle_dataset = True random_seed= 42 # Creating data indices for training and validation splits: dataset_size = len(dataset) indices = list(range(dataset_size)) split = int(np.floor(validation_split * dataset_size)) if shuffle_dataset : np.random.seed(random_seed) np.random.shuffle(indices) train_indices, val_indices = indices[split:], indices[:split] # Creating PT data samplers and loaders: train_sampler = SubsetRandomSampler(train_indices) valid_sampler = SubsetRandomSampler(val_indices) train_loader = torch.utils.data.DataLoader(dataset, batch_size=batch_size, sampler=train_sampler) validation_loader = torch.utils.data.DataLoader(dataset, batch_size=batch_size, sampler=valid_sampler) # Usage Example: num_epochs = 10 for Epoch in range(num_epochs): # Train: for batch_index, (faces, labels) in enumerate(train_loader): # ...

F&#225;bio Perez · Answer

À partir de PyTorch 0.4.1, vous pouvez utiliser random_split :

_train_size = int(0.8 * len(full_dataset)) test_size = len(full_dataset) - train_size train_dataset, test_dataset = torch.utils.data.random_split(full_dataset, [train_size, test_size]) _

Shital Shah · Answer

Les réponses actuelles font des fractionnements aléatoires, ce qui a pour inconvénient que l'équilibre du nombre d'échantillons par classe n'est pas garanti. Cela est particulièrement problématique lorsque vous souhaitez avoir un petit nombre d'échantillons par classe. Par exemple, MNIST compte 60 000 exemples, soit 6 000 par chiffre. Supposons que vous ne voulez que 30 exemples par chiffre dans votre ensemble de formation. Dans ce cas, la division aléatoire peut produire un déséquilibre entre les classes (un chiffre avec plus de données d'apprentissage que les autres). Donc, vous voulez vous assurer que chaque chiffre n'a précisément que 30 étiquettes. C'est ce qu'on appelle un échantillonnage stratifié .

Une façon de faire est d’utiliser l’interface d’échantillonnage dans Pytorch et l’échantillon de code est ici .

Une autre façon de faire est simplement de vous frayer un chemin à travers :). Par exemple, ci-dessous est une implémentation simple pour MNIST où ds est un ensemble de données MNIST et k est le nombre d'échantillons nécessaires pour chaque classe.

def sampleFromClass(ds, k): class_counts = {} train_data = [] train_label = [] test_data = [] test_label = [] for data, label in ds: c = label.item() class_counts[c] = class_counts.get(c, 0) + 1 if class_counts[c] <= k: train_data.append(data) train_label.append(torch.unsqueeze(label, 0)) else: test_data.append(data) test_label.append(torch.unsqueeze(label, 0)) train_data = torch.cat(train_data) for ll in train_label: print(ll) train_label = torch.cat(train_label) test_data = torch.cat(test_data) test_label = torch.cat(test_label) return (TensorDataset(train_data, train_label), TensorDataset(test_data, test_label))

Vous pouvez utiliser cette fonction comme ceci:

def main(): train_ds = datasets.MNIST('../data', train=True, download=True, transform=transforms.Compose([ transforms.ToTensor() ])) train_ds, test_ds = sampleFromClass(train_ds, 3)

prosti · Answer

Un jeu de données personnalisé a une signification particulière dans PyTorch, mais je pense que vous vouliez dire n'importe quel jeu de données. Examinons l'ensemble de données MNIST (il s'agit probablement de l'ensemble de données le plus célèbre pour les débutants).

import torch, torchvision import torchvision.datasets as datasets from torch.utils.data import DataLoader, Dataset, TensorDataset train_loader = DataLoader( torchvision.datasets.MNIST('/data/mnist', train=True, download=True, transform=torchvision.transforms.Compose([ torchvision.transforms.ToTensor(), torchvision.transforms.Normalize( (0.5,), (0.5,)) ])), batch_size=16, shuffle=False) print(train_loader.dataset.data.shape) test_ds = train_loader.dataset.data[:50000, :, :] valid_ds = train_loader.dataset.data[50000:, :, :] print(test_ds.shape) print(valid_ds.shape) test_dst = train_loader.dataset.targets.data[:50000] valid_dst = train_loader.dataset.targets.data[50000:] print(test_dst, test_dst.shape) print(valid_dst, valid_dst.shape)

Ce qui sortira, est la taille de l'original [60000, 28, 28], puis le fractionnera [50000, 28, 28] pour le test et [10000, 28, 28] pour la validation:

torch.Size([60000, 28, 28]) torch.Size([50000, 28, 28]) torch.Size([10000, 28, 28]) tensor([5, 0, 4, ..., 8, 4, 8]) torch.Size([50000]) tensor([3, 8, 6, ..., 5, 6, 8]) torch.Size([10000])

_{Informations supplémentaires si vous prévoyez d'associer des images et des étiquettes (cibles) ensemble}

bs = 16 test_dl = DataLoader(TensorDataset(test_ds, test_dst), batch_size=bs, shuffle=True) for xb, yb in test_dl: # Do your work