R sous-téléchéez une image de données en plusieurs cadres de données en fonction de plusieurs valeurs de colonne.

Question

J'essaie de sous-ensemble un cadre de données, où je reçois plusieurs images de données en fonction de plusieurs valeurs de colonne. Voici mon exemple

>df v1 v2 v3 v4 v5 A Z 1 10 12 D Y 10 12 8 E X 2 12 15 A Z 1 10 12 E X 2 14 16

La production attendue est une chose comme celle-ci où je divise cette trame de données dans plusieurs cadres de données en fonction de la colonne v1 et v2

>df1 v3 v4 v5 1 10 12 1 10 12 >df2 v3 v4 v5 10 12 8 >df3 v3 v4 v5 2 12 15 2 14 16

J'ai écrit un code qui fonctionne maintenant mais je ne pense pas que c'est la meilleure façon de le faire. Il doit y avoir une meilleure façon de le faire. En supposant que tab est le fichier data.frame ayant les données initiales. Voici mon code:

v1Factors<-levels(factor(tab$v1)) v2Factors<-levels(factor(tab$v2)) for(i in 1:length(v1Factors)){ for(j in 1:length(v2Factors)){ subsetTab<-subset(tab, v1==v1Factors[i] & v2==v2Factors[j], select=c("v3", "v4", "v5")) print(subsetTab) } }

Quelqu'un peut-il suggérer une meilleure méthode pour faire ce qui précède?

mnel · Accepted Answer

Vous recherchez split

split(df, with(df, interaction(v1,v2)), drop = TRUE) $E.X v1 v2 v3 v4 v5 3 E X 2 12 15 5 E X 2 14 16 $D.Y v1 v2 v3 v4 v5 2 D Y 10 12 8 $A.Z v1 v2 v3 v4 v5 1 A Z 1 10 12

Comme indiqué dans les commentaires

l'un des éléments suivants fonctionnerait

library(microbenchmark) microbenchmark( split(df, list(df$v1,df$v2), drop = TRUE), split(df, interaction(df$v1,df$v2), drop = TRUE), split(df, with(df, interaction(v1,v2)), drop = TRUE)) Unit: microseconds expr min lq median uq max neval split(df, list(df$v1, df$v2), drop = TRUE) 1119.845 1129.3750 1145.8815 1182.119 3910.249 100 split(df, interaction(df$v1, df$v2), drop = TRUE) 893.749 900.5720 909.8035 936.414 3617.038 100 split(df, with(df, interaction(v1, v2)), drop = TRUE) 895.150 902.5705 909.8505 927.128 1399.284 100

Il semble que interaction est légèrement plus rapide (probablement du fait que la fonction f = list(...) ne vient que convertie en interaction dans la fonction)

Éditer

Si vous voulez juste utiliser le sous-ensemble data.frames, je vous suggère d'utiliser des données. Stable pour la facilité de codage

library(data.table) dt <- data.table(df) dt[, plot(v4, v5), by = list(v1, v2)]

Joe · Answer

Il y a maintenant aussi nest() de tidyr qui est plutôt gentil.

library(tidyr) nestdf <- df %>% nest(v3:v5) nestdf$data > nestdf$data [[1]] # A tibble: 2 × 3 v3 v4 v5 <int> <int> <int> 1 1 10 12 2 1 10 12 [[2]] # A tibble: 1 × 3 v3 v4 v5 <int> <int> <int> 1 10 12 8 [[3]] # A tibble: 2 × 3 v3 v4 v5 <int> <int> <int> 1 2 12 15 2 2 14 16

Accédez à des treillis individuels avec nestdf$data[1] etc.