web-dev-qa-db-fra.com

Quelle quantité de stockage serait nécessaire pour stocker un génome humain?

Je recherche la quantité de stockage en octets (Mo, Go, To, etc.) requise pour stocker un seul génome humain. J'ai lu quelques articles sur Wikipédia sur l'ADN, les chromosomes, les paires de bases, les gènes, et j'ai une idée approximative, mais avant de révéler quoi que ce soit, j'aimerais voir comment les autres abordent ce problème.

Une autre question serait de savoir combien d’atomes il y a dans l’ADN humain, mais ce serait hors sujet pour ce site.

Je comprends que ce sera une approximation, donc je cherche la valeur minimale qui serait capable de stocker l’ADN de n’importe quel humain.

63
Milan Babuškov

Si vous faites confiance à de telles choses, voici ce que prétend Wikipedia (from http://en.wikipedia.org/wiki/Human_genome#Information_content ):

Les 2,9 milliards de paires de bases du génome humain haploïde correspondent à a maximum d'environ 725 mégaoctets de données, car chaque paire de base peut être codé par 2 bits. Étant donné que les génomes individuels varient de moins de 1% à partir de mutuellement, ils peuvent être compressés sans perte à environ 4 mégaoctets.

51
Oliver Charlesworth

Vous ne stockez pas tout l'ADN dans un flux, mais presque toujours par chromosomes. 

Un grand chromosome prend environ 300 Mo et un petit environ 50 Mo. 


Modifier:

Je pense que la première raison pour laquelle il n’est pas sauvegardé en 2 bits par paire de base est qu’il serait difficile de manipuler les données. La plupart des gens ne sauraient pas comment le convertir. Et même lorsqu'un programme de conversion serait donné, beaucoup de personnes dans les grandes entreprises ou les instituts de recherche ne sont pas autorisées à/n'ont pas besoin de demander ou ne savent pas comment installer des programmes ... 

1 Go de stockage ne coûte rien, même le téléchargement de 3 Go ne prend que 4 minutes à 100 Mbitsps et la plupart des entreprises ont des vitesses plus rapides. 

Un autre point est que les données ne sont pas aussi simples qu'on vous le dit. 

par exemple. La méthode de séquençage inventée par Craig_Venter constituait une avancée majeure mais présente des inconvénients. Il ne peut pas séparer de longues chaînes d'une même paire de bases, il n'est donc pas toujours clair s'il existe 8 A ou 9 A. Les choses que vous devez prendre en charge plus tard ...

Un autre exemple est le méthylation de l'ADN parce que vous ne pouvez pas stocker cette information dans une représentation 2 bits. 

24
rauschen

Fondamentalement, chaque paire de bases prend 2 bits (vous pouvez utiliser 00, 01, 10, 11 pour T, G, C et A). Comme il y a environ 2,9 milliards de paires de bases dans le génome humain, (2 * 2,9 milliards) de bits ~ = 691 mégaoctets. 

Je ne suis pas un expert, cependant, la page Human Genome sur Wikipedia indique ce qui suit:

Raw MB:

  • Homme (XY): 770Mo
  • Femme (XX): 756Mo

Je ne sais pas d'où vient leur différence, mais je suis sûr que vous pouvez le comprendre.

11
Paul Armstrong

Oui, la RAM minimale requise pour l'ADN humain entier est d'environ 770 Mo . Cependant, la représentation sur 2 bits est pratique. Il est difficile de faire des recherches ou d’effectuer des calculs. C'est pourquoi certains mathématiciens ont conçu un moyen plus efficace de stocker ces séquences de bases ... et de les utiliser dans des algorithmes de recherche et de comparaison tels que, par exemple, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html) . Cette application fonctionne actuellement sur mon PC, je peux donc vous dire ... que son ADN est pratiquement stocké dans environ: 1 563 MB .

Le génome humain contient 2,9 milliards de paires de bases. Donc, si vous représentiez chaque paire de bases sous forme d'octet, il faudrait 2,9 milliards d'octets ou 2,9 Go. Vous pourriez probablement trouver un moyen plus créatif de stocker des paires de bases car chaque paire de bases ne nécessite que 2 bits. Vous pouvez donc probablement stocker 4 paires de bases par octet, ce qui réduit le total à moins d’un Go.

4
slayton

Notre ADN est composé de 4 bases nucléotidiques: A, C, G, T, par conséquent, chaque base de l’ADN occupe 2 bits. Il y a environ 2,9 milliards de bases, donc environ 700 mégaoctets. La chose étrange est que cela remplirait un cd de données normal! coïncidence?!?

3
Matthew McGuinness

vient de le faire aussi. la séquence brute est ~ 700 MB. si on utilise une séquence de stockage fixe ou un algorithme de stockage de séquence fixe - et le fait que les modifications sont 1% i calculées ~ 120 MB avec un stockage perchromosome-sequenceoffset-declareelta c'est tout pour le stockage.

2
betheguest

La plupart des réponses, à l'exception des utilisateurs slayton, rauchen, Paul Amstrong, sont totalement erronées s'il s'agit de stockage individuel sans techniques de compression. 

Le génome humain avec 3 Gb de nucléotides correspond à 3 Gb octets et non à environ 750 Mo. Le génome "hpaloïde" construit selon NCBI est actuellement de 3436687kb ou 3.436687 Gb. Vérifiez ici pour vous-même.

Haploïde = copie unique d'un chromosome . Diploïde = deux versions d'haploïde . Les humains ont 22 chromosomes uniques x 2 = 44 . Le 23ème chromosome masculin correspond à X, Y et en fait 46 au total . Femelles 23ème chrom. est X, X et fait donc 46 au total.

Pour les hommes, il s'agirait d'un chromosome 23 + 1 dans le stockage de données sur un disque dur et de 23 chromosomes pour les femmes, ce qui expliquerait les petites différences mentionnées de temps en temps dans les réponses. Le chromate X des hommes est égal à X chrom. des femelles.

Ainsi, le chargement du génome (23 + 1) en mémoire se fait en partie via BLAST à l'aide de bases de données construites à partir de fichiers fasta. Indépendamment des versions compressées ou non, les nucléotides ne doivent pas être compressés. À ses débuts, l’une des astuces utilisées consistait à remplacer les répétitions en tandem (GACGACGAC avec un codage plus court, par exemple "3GAC"; de 9 à 4 octets). La raison en était d’économiser de l’espace disque (zone des plateaux HDDD 500bm-2GB avec 7.200 tr/min et connecteurs SCSI). Pour la recherche de séquence, cela a également été fait avec la requête.

Si "nucléotide codé" est de 2 bits par lettre, vous obtenez un octet:

A = 00 
C = 01 
G = 10 
T = 11 

Ainsi, vous profitez pleinement des positions 1,2,3,4,5,6,7 et 8 pour 1 octet de codage. Par exemple, la combinaison 00.01.10.11 correspondant à "ACTG". Cela seul est responsable de la réduction de 4 fois la taille du fichier, comme nous le voyons dans d’autres réponses. Ainsi, 3,4 Go seront réduits à 0,85917175 Go ... ~ 860 Mo, y compris un programme de conversion requis (23 Ko/4 Mo).

Mais ... en biologie, vous voulez pouvoir lire quelque chose, donc la compression compressée est plus que suffisante. Décompressé, vous pouvez toujours le lire. Si vous avez utilisé ce remplissage d'octets, il devient plus difficile de lire les données. C'est pourquoi les fichiers fasta sont en réalité des fichiers texte.

2
ZF007

Toutes les réponses oublient le fait que l'ADN nu n'est pas le seul ADN qui définit un génome humain. L'ADNmt est également hérité et contribue au génome humain à 16 500 paires de bases supplémentaires, ce qui le rapproche davantage de l'estimation de Wikipedia, qui est de 770 Mo pour les hommes et de 756 Mo pour les femmes.

Cela ne signifie pas qu'un génome humain peut facilement être stocké sur une clé USB de 4 Go. Les bits ne représentent pas une information en eux-mêmes, c'est la combinaison de bits qui représente une information. Ainsi, dans le cas de l'ADN nu et de l'ADNmt, les bits sont codés (à ne pas confondre avec compressés) pour représenter des protéines et des enzymes qui, en eux-mêmes, nécessiteraient de nombreux MB de données brutes, notamment en termes de fonctionnalité.

Matière à réflexion: 80% du génome humain est appelé ADN "non codant". Avez-vous réellement cru que le corps et le cerveau humains entiers peuvent être représentés dans seulement 151 à 154 Mo de données brutes?

0
ar18

Tout le monde a un génome humain et, selon le Nation Human Research Institute , nous avons 30 000 gènes au total contenant environ 3 milliards de paires de bases (deux bases = paire de bases). Il existe 4 bases différentes: adénine (A), guanine (G), cytosine (C) et thymine (T). Nous pourrions définir A sur 00 ou 01000001 (ce qu’il est habituellement). Je répondrai pour une paire de base composée de deux octets et de deux bits, même si je pense que les octets seraient l'option la plus réaliste, car les données seront plus faciles à gérer. 

Je vais supposer que la structure des données est telle que chaque ligne est une séquence paire de gènes/bases (par exemple, ATCG…) lue de bas en haut car l'ordre est important, similaire aux lettres d'un mot . Un nouveau La ligne sous Linux correspond à 1 octet et à 2 octets sous Windows, mais cela aura un impact négligeable sur la taille.

par exemple.

GENE1...
GENE2...

24 000 gènes dans un génome humain nécessitent 24 000 nouvelles lignes = 24 Ko, 38 Ko (négligeable) Si chaque paire de bases est de 2 octets et comme il y en a 3 milliards, cela équivaudrait à 6 Go . Si chaque paire de bases est 2 bits, la taille du fichier serait alors proche de 6 000 000 000 bits ou 750 Mo.

Par conséquent, je dirais que le génome humain prendrait environ 750 Mo ou 6 Go d’espace. S'il vous plaît, corrigez-moi ou améliorez cette réponse si j'ai oublié quelque chose.

0
Eli