web-dev-qa-db-fra.com

R convertir la matrice ou la trame de données en sparseMatrix

J'ai une matrice régulière (non clairsemée) que je voudrais convertir en sparseMatrix (en utilisant le package Matrix). Existe-t-il une fonction pour ce faire ou dois-je faire un tas de boucles?

ex.

> regMat <- matrix(0, nrow=10, ncol=10)
> regMat[3,5] <- round(runif(1),2)*100
> regMat[2,8] <- round(runif(1),2)*100
> regMat[8,4] <- round(runif(1),2)*100
> regMat[1,6] <- round(runif(1),2)*100
> regMat[7,4] <- round(runif(1),2)*100
> regMat 
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
 [1,]    0    0    0    0    0   49    0    0    0     0
 [2,]    0    0    0    0    0    0    0   93    0     0
 [3,]    0    0    0    0   20    0    0    0    0     0
 [4,]    0    0    0    0    0    0    0    0    0     0
 [5,]    0    0    0    0    0    0    0    0    0     0
 [6,]    0    0    0    0    0    0    0    0    0     0
 [7,]    0    0    0    8    0    0    0    0    0     0
 [8,]    0    0    0   14    0    0    0    0    0     0
 [9,]    0    0    0    0    0    0    0    0    0     0
[10,]    0    0    0    0    0    0    0    0    0     0

Aucune suggestion?

31
screechOwl

Voici deux options:

library(Matrix)

A <- as(regMat, "sparseMatrix")       # see also `vignette("Intro2Matrix")`
B <- Matrix(regMat, sparse = TRUE)    # Thanks to Aaron for pointing this out

identical(A, B)
# [1] TRUE
A
# 10 x 10 sparse Matrix of class "dgCMatrix"
#                              
#  [1,] . . .  .  . 45 .  . . .
#  [2,] . . .  .  .  . . 59 . .
#  [3,] . . .  . 95  . .  . . .
#  [4,] . . .  .  .  . .  . . .
#  [5,] . . .  .  .  . .  . . .
#  [6,] . . .  .  .  . .  . . .
#  [7,] . . . 23  .  . .  . . .
#  [8,] . . . 63  .  . .  . . .
#  [9,] . . .  .  .  . .  . . .
# [10,] . . .  .  .  . .  . . .
49
Josh O'Brien

Pour la matrice, quelqu'un a déjà une réponse.

Pour le data.table, il existe un package qui a fait le travail.

library(Matrix)
library(mltools)
x = data.table()
sparseM <- sparsify(x) 
0
cloudscomputes

La réponse de Josh est très bien, mais voici plus d'options et d'explications.

Nit Picky "J'ai une matrice régulière (non clairsemée) ..." En fait, vous faites avez une matrice clairsemée (matrice avec principalement 0s); c'est juste au format non compressé. Votre objectif est de le mettre dans un format de stockage compressé.

Les matrices éparses peuvent être compressées dans plusieurs formats de stockage. Compressed Sparse Column (CSC) et Compressed Sparse Row (CSR) sont les deux formats dominants. as(regMat, "sparseMatrix") convertit votre matrice en type dgCMatrix qui est une colonne fragmentée compressée. C'est généralement ce que vous voulez, mais je préfère être explicite à ce sujet.

library(Matrix)

matCSC <- as(regMat, "dgCMatrix")  # compressed sparse column CSC
matCSC
10 x 10 sparse Matrix of class "dgCMatrix"

 [1,] . . .  .  . 57 .  . . .
 [2,] . . .  .  .  . . 27 . .
 [3,] . . .  . 90  . .  . . .
 [4,] . . .  .  .  . .  . . .
 [5,] . . .  .  .  . .  . . .
 [6,] . . .  .  .  . .  . . .
 [7,] . . . 91  .  . .  . . .
 [8,] . . . 37  .  . .  . . .
 [9,] . . .  .  .  . .  . . .
[10,] . . .  .  .  . .  . . .

matCSR <- as(regMat, "dgRMatrix")  # compressed sparse row CSR
matCSR
10 x 10 sparse Matrix of class "dgRMatrix"

 [1,] . . .  .  . 57 .  . . .
 [2,] . . .  .  .  . . 27 . .
 [3,] . . .  . 90  . .  . . .
 [4,] . . .  .  .  . .  . . .
 [5,] . . .  .  .  . .  . . .
 [6,] . . .  .  .  . .  . . .
 [7,] . . . 91  .  . .  . . .
 [8,] . . . 37  .  . .  . . .
 [9,] . . .  .  .  . .  . . .
[10,] . . .  .  .  . .  . . .

Bien que ceux-ci se ressemblent et se comportent de la même façon en surface, en interne, ils stockent les données différemment. CSC est plus rapide pour récupérer des colonnes de données tandis que CSR est plus rapide pour récupérer des lignes. Ils occupent également différentes quantités d'espace en fonction de la structure de vos données.

De plus, dans cet exemple, vous convertissez une matrice creuse non compressée en une matrice compressée. Habituellement, vous faites cela pour économiser de la mémoire, donc la construction d'une matrice non compressée juste pour la convertir en forme compressée va à l'encontre du but. Dans la pratique, il est plus courant de construire une matrice clairsemée compressée à partir d'une table de triplets (ligne, colonne, valeur). Vous pouvez le faire avec la fonction sparseMatrix() de Matrix.

# Make data.frame of (row, column, value) triplets
df <- data.frame(
  rowIdx = c(3,2,8,1,7),
  colIdx = c(5,8,4,6,4),
  val = round(runif(n = 5), 2) * 100
)

df
  rowIdx colIdx val
1      3      5  90
2      2      8  27
3      8      4  37
4      1      6  57
5      7      4  91

# Build CSC matrix
matSparse <- sparseMatrix(
  i = df$rowIdx,
  j = df$colIdx, 
  x = df$val, 
  dims = c(10, 10)
)

matSparse
10 x 10 sparse Matrix of class "dgCMatrix"

 [1,] . . .  .  . 57 .  . . .
 [2,] . . .  .  .  . . 27 . .
 [3,] . . .  . 90  . .  . . .
 [4,] . . .  .  .  . .  . . .
 [5,] . . .  .  .  . .  . . .
 [6,] . . .  .  .  . .  . . .
 [7,] . . . 91  .  . .  . . .
 [8,] . . . 37  .  . .  . . .
 [9,] . . .  .  .  . .  . . .
[10,] . . .  .  .  . .  . . .

Plug sans vergogne - J'ai article de blog couvrant ce genre de choses et plus si vous êtes intéressé.

0
Ben