Convertir les classes de colonnes dans data.table

Question

J'ai un problème avec data.table: comment convertir des classes de colonnes? Voici un exemple simple: avec data.frame, je n’ai aucun problème à le convertir, avec data.table, je ne sais tout simplement pas comment:

df <- data.frame(ID=c(rep("A", 5), rep("B",5)), Quarter=c(1:5, 1:5), value=rnorm(10)) #One way: http://stackoverflow.com/questions/2851015/r-convert-data-frame-columns-from-factors-to-characters df <- data.frame(lapply(df, as.character), stringsAsFactors=FALSE) #Another way df[, "value"] <- as.numeric(df[, "value"]) library(data.table) dt <- data.table(ID=c(rep("A", 5), rep("B",5)), Quarter=c(1:5, 1:5), value=rnorm(10)) dt <- data.table(lapply(dt, as.character), stringsAsFactors=FALSE) #Error in rep("", ncol(xi)) : invalid 'times' argument #Produces error, does data.table not have the option stringsAsFactors? dt[, "ID", with=FALSE] <- as.character(dt[, "ID", with=FALSE]) #Produces error: Error in `[<-.data.table`(`*tmp*`, , "ID", with = FALSE, value = "c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2)") : #unused argument(s) (with = FALSE)

Est-ce que quelque chose d'évident me manque ici?

Mise à jour à cause du message de Matthew: j'avais déjà utilisé une version antérieure, mais même après la mise à jour vers la version 1.6.6 (la version que j'utilise maintenant), j'obtiens toujours une erreur.

Mise à jour 2: Supposons que je veuille convertir chaque colonne de la classe "factor" en une colonne "caractère", mais que je ne sache pas à l'avance quelle colonne appartient à quelle classe. Avec un data.frame, je peux effectuer les tâches suivantes:

classes <- as.character(sapply(df, class)) colClasses <- which(classes=="factor") df[, colClasses] <- sapply(df[, colClasses], as.character)

Puis-je faire quelque chose de similaire avec data.table?

Mise à jour 3:

sessionInfo () R version 2.13.1 (2011-07-08) Plate-forme: x86_64-pc-mingw32/x64 (64 bits)

locale: [1] C attached base packages: [1] stats graphics grDevices utils datasets methods base other attached packages: [1] data.table_1.6.6 loaded via a namespace (and not attached): [1] tools_2.13.1

Andrie · Accepted Answer

Pour une seule colonne:

dtnew <- dt[, Quarter:=as.character(Quarter)] str(dtnew) Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: $ ID : Factor w/ 2 levels "A","B": 1 1 1 1 1 2 2 2 2 2 $ Quarter: chr "1" "2" "3" "4" ... $ value : num -0.838 0.146 -1.059 -1.197 0.282 ...

Utiliser lapply et as.character:

dtnew <- dt[, lapply(.SD, as.character), by=ID] str(dtnew) Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: $ ID : Factor w/ 2 levels "A","B": 1 1 1 1 1 2 2 2 2 2 $ Quarter: chr "1" "2" "3" "4" ... $ value : chr "1.487145280568" "-0.827845218358881" "0.028977182770002" "1.35392750102305" ...

Nera · Answer

Essaye ça

DT <- data.table(X1 = c("a", "b"), X2 = c(1,2), X3 = c("hello", "you")) changeCols <- colnames(DT)[which(as.vector(DT[,lapply(.SD, class)]) == "character")] DT[,(changeCols):= lapply(.SD, as.factor), .SDcols = changeCols]

geneorama · Answer

C'est une mauvaise façon de le faire! Je ne laisse cette réponse que si elle résout d’autres problèmes étranges. Ces meilleures méthodes sont probablement en partie le résultat de versions plus récentes de data.table ... il est donc intéressant de documenter de la sorte. De plus, il s'agit d'un exemple de syntaxe Nice pour la syntaxe eval substitute.

library(data.table) dt <- data.table(ID = c(rep("A", 5), rep("B",5)), fac1 = c(1:5, 1:5), fac2 = c(1:5, 1:5) * 2, val1 = rnorm(10), val2 = rnorm(10)) names_factors = c('fac1', 'fac2') names_values = c('val1', 'val2') for (col in names_factors){ e = substitute(X := as.factor(X), list(X = as.symbol(col))) dt[ , eval(e)] } for (col in names_values){ e = substitute(X := as.numeric(X), list(X = as.symbol(col))) dt[ , eval(e)] } str(dt)

qui te donne

Classes ‘data.table’ and 'data.frame': 10 obs. of 5 variables: $ ID : chr "A" "A" "A" "A" ... $ fac1: Factor w/ 5 levels "1","2","3","4",..: 1 2 3 4 5 1 2 3 4 5 $ fac2: Factor w/ 5 levels "2","4","6","8",..: 1 2 3 4 5 1 2 3 4 5 $ val1: num 0.0459 2.0113 0.5186 -0.8348 -0.2185 ... $ val2: num -0.0688 0.6544 0.267 -0.1322 -0.4893 ... - attr(*, ".internal.selfref")=<externalptr>

liqg3 · Answer

Je fournis un moyen plus général et plus sûr de faire ce genre de choses,

".." <- function (x) { stopifnot(inherits(x, "character")) stopifnot(length(x) == 1) get(x, parent.frame(4)) } set_colclass <- function(x, class){ stopifnot(all(class %in% c("integer", "numeric", "double","factor","character"))) for(i in intersect(names(class), names(x))){ f <- get(paste0("as.", class[i])) x[, (..("i")):=..("f")(get(..("i")))] } invisible(x) }

La fonction .. s'assure que nous obtenons une variable en dehors de la portée de data.table; set_colclass définira les classes de vos colonnes . Vous pouvez l'utiliser comme ceci:

dt <- data.table(i=1:3,f=3:1) set_colclass(dt, c(i="character")) class(dt$i)

uribo · Answer

J'ai essayé plusieurs approches.

# BY {dplyr} data.table(ID = c(rep("A", 5), rep("B",5)), Quarter = c(1:5, 1:5), value = rnorm(10)) -> df1 df1 %<>% dplyr::mutate(ID = as.factor(ID), Quarter = as.character(Quarter)) # check classes dplyr::glimpse(df1) # Observations: 10 # Variables: 3 # $ ID (fctr) A, A, A, A, A, B, B, B, B, B # $ Quarter (chr) "1", "2", "3", "4", "5", "1", "2", "3", "4", "5" # $ value (dbl) -0.07676732, 0.25376110, 2.47192852, 0.84929175, -0.13567312, -0.94224435, 0.80213218, -0.89652819...

, ou autrement

# from list to data.table using data.table::setDT list(ID = as.factor(c(rep("A", 5), rep("B",5))), Quarter = as.character(c(1:5, 1:5)), value = rnorm(10)) %>% setDT(list.df) -> df2 class(df2) # [1] "data.table" "data.frame"

JWilliman · Answer

Ajout du commentaire de Matt Dowle à la réponse de Geneorama ( https://stackoverflow.com/a/20808945/4241780 ) pour le rendre plus évident (comme encouragé).

for (col in names_factors) set(dt, j=col, value=as.factor(dt[[col]]))

Aussi, noté dans un autre commentaire de Matt, voir https://stackoverflow.com/a/33000778/4241780 pour plus d'informations.