R extrait une partie de la corde

Question

J'ai une question sur l'extraction d'une partie d'une chaîne. Par exemple, j'ai une chaîne comme celle-ci:

a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"

J'ai besoin d'extraire tout ce qui se situe entre GN= et ;.Alors ici, ce sera NOC2L.

Est-ce possible?

Remarque: Ceci est une INFO colonne Format de fichier VCF . GN étant le nom du gène, nous souhaitons extraire le nom du gène de la colonne INFO.

kohske · Accepted Answer

Essaye ça:

sub(".*?GN=(.*?);.*", "\1", a) # [1] "NOC2L"

jbaums · Answer

En supposant que les points-virgules séparent vos éléments et que les signes d’égalité apparaissent exclusivement entre des paires clé/valeur, une méthode non strictement stricte serait:

bits <- unlist(strsplit(a, ';')) do.call(rbind, strsplit(bits, '=')) [,1] [,2] [1,] "DP" "26" [2,] "AN" "2" [3,] "DB" "1" [4,] "AC" "1" [5,] "MQ" "56" [6,] "MZ" "0" [7,] "ST" "5:10,7:2" [8,] "CQ" "SYNONYMOUS_CODING" [9,] "GN" "NOC2L" [10,] "PA" "1^1:0.720&2^1:0"

Ensuite, il suffit de sélectionner l'élément approprié.

johannes · Answer

Une façon serait:

gsub(".+=(\w+);.+", "\1", a, Perl=T)

Je suis sûr qu'il existe des moyens plus élégants de le faire.

Davy Kavanagh · Answer

a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0" m = regexpr("GN.*;",a) substr(a,m+3,m+attr(m,"match.length")-2)

zx8754 · Answer

Comme la chaîne provient d'un fichier VCF, nous pouvons utiliser VariantAnnotation package:

library(VariantAnnotation) # read dummy VCF file fl <- system.file("extdata", "chr22.vcf.gz", package="VariantAnnotation") vcf <- readVcf(fl, "hg19") # see first 5 variables for info column info(vcf)[1:3, 1:5] # DataFrame with 3 rows and 5 columns # LDAF AVGPOST RSQ ERATE THETA # <numeric> <numeric> <numeric> <numeric> <numeric> # rs7410291 0.3431 0.9890 0.9856 2e-03 0.0005 # rs147922003 0.0091 0.9963 0.8398 5e-04 0.0011 # rs114143073 0.0098 0.9891 0.5919 7e-04 0.0008 # Now extract one column, e.g.: LDAF info(vcf)[1:3, "LDAF"] # [1] 0.3431 0.0091 0.0098

Dans l'exemple ci-dessus d'objet VCF, il n'y a pas de colonne "GN", mais l'idée est la même. Dans votre cas, ci-dessous devrait fonctionner:

# extract gene name info(vcf)[, "GN"]

MilesMcBain · Answer

Au lieu de combiner les références arrières avec sub, vous pouvez utiliser une assertion lookbehind et lookahead avec une opération d'extraction, comme suit:

library(stringr) a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0" str_extract(a, "(?<=GN=)[^;]*(?=;|$)") # [1] NOC2L

Où:

(?<=GN=) affirme que GN= doit être en avance sur le match
(?=;|$) affirme que ; ou la fin de la chaîne ($) doit être derrière (après) la correspondance
[^;]* correspond à n'importe quel nombre de caractères qui ne sont pas ;

Remarque: [^;]* a été utilisé sur .*, ce dernier pouvant correspondre à un ; et continuer à correspondre jusqu'à la fin de la chaîne ($).