web-dev-qa-db-fra.com

R extrait une partie de la corde

J'ai une question sur l'extraction d'une partie d'une chaîne. Par exemple, j'ai une chaîne comme celle-ci:

a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"

J'ai besoin d'extraire tout ce qui se situe entre GN= et ;.Alors ici, ce sera NOC2L.

Est-ce possible?

Remarque: Ceci est une INFO colonne Format de fichier VCF . GN étant le nom du gène, nous souhaitons extraire le nom du gène de la colonne INFO.

19
Lisann

Essaye ça:

sub(".*?GN=(.*?);.*", "\\1", a)
# [1] "NOC2L"
33
kohske

En supposant que les points-virgules séparent vos éléments et que les signes d’égalité apparaissent exclusivement entre des paires clé/valeur, une méthode non strictement stricte serait:

bits <- unlist(strsplit(a, ';'))
do.call(rbind, strsplit(bits, '='))

      [,1] [,2]               
 [1,] "DP" "26"               
 [2,] "AN" "2"                
 [3,] "DB" "1"                
 [4,] "AC" "1"                
 [5,] "MQ" "56"               
 [6,] "MZ" "0"                
 [7,] "ST" "5:10,7:2"         
 [8,] "CQ" "SYNONYMOUS_CODING"
 [9,] "GN" "NOC2L"            
[10,] "PA" "1^1:0.720&2^1:0"  

Ensuite, il suffit de sélectionner l'élément approprié.

14
jbaums

Une façon serait:

gsub(".+=(\\w+);.+", "\\1", a, Perl=T)

Je suis sûr qu'il existe des moyens plus élégants de le faire.

3
johannes
a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"
m = regexpr("GN.*;",a)
substr(a,m+3,m+attr(m,"match.length")-2)
3
Davy Kavanagh

Comme la chaîne provient d'un fichier VCF, nous pouvons utiliser VariantAnnotation package:

library(VariantAnnotation)

# read dummy VCF file
fl <- system.file("extdata", "chr22.vcf.gz", package="VariantAnnotation")
vcf <- readVcf(fl, "hg19")

# see first 5 variables for info column
info(vcf)[1:3, 1:5]
# DataFrame with 3 rows and 5 columns
#                  LDAF   AVGPOST       RSQ     ERATE     THETA
#             <numeric> <numeric> <numeric> <numeric> <numeric>
# rs7410291      0.3431    0.9890    0.9856     2e-03    0.0005
# rs147922003    0.0091    0.9963    0.8398     5e-04    0.0011
# rs114143073    0.0098    0.9891    0.5919     7e-04    0.0008

# Now extract one column, e.g.: LDAF
info(vcf)[1:3, "LDAF"]
# [1] 0.3431 0.0091 0.0098

Dans l'exemple ci-dessus d'objet VCF, il n'y a pas de colonne "GN", mais l'idée est la même. Dans votre cas, ci-dessous devrait fonctionner:

# extract gene name
info(vcf)[, "GN"]
1
zx8754

Au lieu de combiner les références arrières avec sub, vous pouvez utiliser une assertion lookbehind et lookahead avec une opération d'extraction, comme suit:

library(stringr)
a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"
str_extract(a, "(?<=GN=)[^;]*(?=;|$)")
# [1] NOC2L

Où:

  • (?<=GN=) affirme que GN= doit être en avance sur le match
  • (?=;|$) affirme que ; ou la fin de la chaîne ($) doit être derrière (après) la correspondance
  • [^;]* correspond à n'importe quel nombre de caractères qui ne sont pas ;

Remarque: [^;]* a été utilisé sur .*, ce dernier pouvant correspondre à un ; et continuer à correspondre jusqu'à la fin de la chaîne ($).

0
MilesMcBain