web-dev-qa-db-fra.com

Compter les occurrences d'un caractère donné par cellule

Question

Par exemple, si je voulais compter le nombre de Ns dans une colonne de chaînes, comment puis-je le faire dans les feuilles de calcul Google par cellule (c'est-à-dire une formule qui pointe vers une cellule à la fois que je peux faire glisser vers le bas)?

String/Count table

Contexte

Je dois décider d'un seuil -min-overlap <integer> pour un programme appelé TOMTOM ** qui compare la similitude entre les PWM *** de petits motifs d'ADN ****, N est une expression régulière pour toute combinaison linéaire des lettres A, C, G et T. Ce serait bien si je pouvais avoir une idée de la distribution des longueurs non N de mes motifs d'ADN pour m'aider à me renseigner sur un -min-overlap <integer> valeur pour TOMTOM.

Et voici quelques vrais exemples:

enter image description here

** TOMTOM est un outil pour comparer un motif d'ADN à une base de données de motifs connus. Voir ici pour plus d'informations.

*** PWM signifie Position Weight Matrix:

  • Selon Wiki : Une matrice de poids de position (PWM), également connue sous le nom de matrice de poids spécifique à la position (PSWM) ou matrice de notation spécifique à la position (PSSM), est une représentation couramment utilisée des motifs (motifs ) dans des séquences biologiques.
  • Selon cet article , il pourrait être défini comme:

La matrice de poids de position (PWM) ou les modèles de type PWM sont largement utilisés pour représenter les préférences de liaison à l'ADN des protéines (Stormo, 2000). Dans ces modèles, une matrice est utilisée pour représenter le site de liaison TF (TFBS), chaque élément représentant la contribution à l'affinité de liaison globale d'un nucléotide à la position correspondante. Une hypothèse inhérente aux modèles PWM traditionnels est l'indépendance de position; c'est-à-dire que la contribution de différentes positions nucléotidiques au sein d'un TFBS à l'affinité de liaison globale est supposée être additive. Bien que cette approximation soit largement valable, elle ne s'applique pas à plusieurs protéines (Man et Stormo, 2001; Bulyk et al, 2002). Pour améliorer la modélisation quantitative, les modèles PWM ont été étendus pour inclure des paramètres supplémentaires, tels que les caractéristiques k ‐ mer, pour tenir compte des dépendances de position au sein des TFBS (Zhao et al, 2012; Mathelier & Wasserman, 2013; Mordelet et al, 2013; Weirauch et al, 2013; Riley et al, 2015). Les interdépendances entre les positions des nucléotides ont une origine structurelle. Par exemple, les interactions d'empilement entre les paires de bases adjacentes forment la structure d'ADN locale en trois dimensions. Les TF ont des préférences pour la conformation de l'ADN dépendante de la séquence, que nous appelons lecture de la forme de l'ADN (Rohs et al, 2009, 2010).

OU, plus contemporain:

Sur la base de cette logique, une approche alternative pour augmenter les modèles PWM traditionnels est l'inclusion de caractéristiques structurelles de l'ADN. Les modèles de spécificité de liaison TF-ADN incorporant ces caractéristiques de forme d'ADN ont atteint des niveaux de performance comparables aux modèles incorporant des caractéristiques k-mer d'ordre supérieur, tout en nécessitant un nombre beaucoup plus petit de paramètres (Zhou et al, 2015). Nous avons précédemment révélé l'importance de la lecture de la forme de l'ADN pour les membres des familles de base hélice-boucle-hélice (bHLH) et homéodomaine TF (Dror et al, 2014; Yang et al, 2014; Zhou et al, 2015). Nous avons également pu, pour les Hox TF, identifier les régions dans les TFBS qui ont utilisé la lecture de la forme de l'ADN, démontrant la puissance de l'approche pour révéler des informations mécaniques sur la reconnaissance de l'ADN TF (Abe et al, 2015). Cette capacité a été largement démontrée pour seulement deux familles de protéines, en raison du manque de données de liaison TF-ADN de grande qualité à grande échelle. Avec l'abondance récente de mesures à haut débit de la liaison protéine-ADN, il est maintenant possible de disséquer le rôle de la lecture de la forme de l'ADN pour de nombreuses familles de TF.

**** Motif d'ADN: wiki : En génétique, un motif de séquence est un motif de séquence de nucléotides ou d'acides aminés qui est répandu et a, ou est supposé avoir, une signification biologique. Pour les protéines, un motif de séquence se distingue d'un motif structurel, un motif formé par l'arrangement tridimensionnel d'acides aminés, qui peut ne pas être adjacent.

28
hello_there_andy

Une alternative pour une cellule à la fois (formule à copier):

=len(A2)-len(SUBSTITUTE(A2,"N",""))
53
pnuts

Je ne sais pas si cela va aider, mais disons que vous avez ces chaînes dans la plage A2: A6 et que vous entrez

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))

en B2, cela devrait produire le nombre N pour toute la plage.

12
JPV