Fichier texte à lister en R

Question

J'ai un grand fichier texte avec un nombre variable de champs dans chaque ligne. La première entrée de chaque ligne correspond à une voie biologique et chaque entrée suivante correspond à un gène de cette voie. Les premières lignes peuvent ressembler à ceci

path1 gene1 gene2 path2 gene3 gene4 gene5 gene6 path3 gene7 gene8 gene9

J'ai besoin de lire ce fichier dans R en tant que liste, chaque élément étant un vecteur de caractères et le nom de chaque élément de la liste étant le premier élément de la ligne, par exemple:

> pathways <- list( + path1=c("gene1","gene2"), + path2=c("gene3","gene4","gene5","gene6"), + path3=c("gene7","gene8","gene9") + ) > > str(pathways) List of 3 $ path1: chr [1:2] "gene1" "gene2" $ path2: chr [1:4] "gene3" "gene4" "gene5" "gene6" $ path3: chr [1:3] "gene7" "gene8" "gene9" > > str(pathways$path1) chr [1:2] "gene1" "gene2" > > print(pathways) $path1 [1] "gene1" "gene2" $path2 [1] "gene3" "gene4" "gene5" "gene6" $path3 [1] "gene7" "gene8" "gene9"

... mais je dois le faire automatiquement pour des milliers de lignes. J'ai vu un question similaire postée ici précédemment , mais je n'ai pas pu comprendre comment faire cela à partir de ce fil.

Merci d'avance.

Joshua Ulrich · Accepted Answer

Voici une façon de procéder:

# Read in the data x <- scan("data.txt", what="", sep="
") # Separate elements by one or more whitepace y <- strsplit(x, "[[:space:]]+") # Extract the first vector element and set it as the list element name names(y) <- sapply(y, `[[`, 1) #names(y) <- sapply(y, function(x) x[[1]]) # same as above # Remove the first vector element from each list element y <- lapply(y, `[`, -1) #y <- lapply(y, function(x) x[-1]) # same as above

Gavin Simpson · Answer

Une solution consiste à lire les données via read.table(), mais utilisez le fill = TRUE argument pour remplir les lignes avec moins d '"entrées", convertir le bloc de données résultant en une liste, puis nettoyer les éléments "vides".

Tout d'abord, lisez votre extrait de données dans:

con <- textConnection("path1 gene1 gene2 path2 gene3 gene4 gene5 gene6 path3 gene7 gene8 gene9 ") dat <- read.table(con, fill = TRUE, stringsAsFactors = FALSE) close(con)

Ensuite, nous déposons la première colonne, la sauvegardant d'abord pour les noms de la liste plus tard

nams <- dat[, 1] dat <- dat[, -1]

Convertissez le bloc de données en liste. Ici, je viens de diviser la trame de données sur les indices 1,2, ..., n où n est le nombre de lignes:

ldat <- split(dat, seq_len(nrow(dat)))

Nettoyez les cellules vides:

ldat <- lapply(ldat, function(x) x[x != ""])

Enfin, appliquez les noms

names(ldat) <- nams

Donnant:

> ldat $path1 [1] "gene1" "gene2" $path2 [1] "gene3" "gene4" "gene5" "gene6" $path3 [1] "gene7" "gene8" "gene9"

Karsten W. · Answer

Encore une solution:

sl <- c("path1 gene1 gene2", "path2 gene1 gene2 gene3") # created by readLines f <- function(l, s) { v <- strsplit(s, " ")[[1]] l[[v[1]]] <- v[2:length(v)] return(l) } res <- Reduce(f, sl, list())

JAShapiro · Answer

Une solution rapide basée sur la page liée ...

inlist <- strsplit(readLines("file.txt"), "[[:space:]]+") pathways <- lapply(inlist, tail, n = -1) names(pathways) <- lapply(inlist, head, n = 1)