web-dev-qa-db-fra.com

Est-il nécessaire de brûler RAM pour le matériel de classe serveur?

Compte tenu du fait que de nombreux systèmes de classe serveur sont équipés RAM ECC , est-il nécessaire ou utile à Burn-in la mémoire DIMM de la mémoire avant leur déploiement?

J'ai rencontré un environnement où tout Server RAM est placé dans un long processus de gravure/test de contrainte. Cela a retardé de déploiements de système à l'occasion et impacts du matériel de rendement matériel.

Le matériel serveur est principalement Supermicro , de sorte que le RAM est provenant de divers vendeurs; pas directement du fabricant comme a Dell PowerEdge ou HP ProLiant .

Est-ce un exercice utile? Dans mon expérience passée, j'ai simplement utilisé Vendor RAM sur la boîte. Ne devrait-il pas le [~ # ~] post [~ # ~ ~] Tests de mémoire attraper DOA Mémoire? J'ai répondu aux erreurs ECC bien avant que la DIMM ait échoué, car les seuils de la CEC étaient généralement la gâchette pour le placement de la garantie.

  • Avez-vous brûlé-in votre RAM?
  • Si oui, quelle (s) méthode (s) utilisez-vous pour effectuer les tests?
  • At-il identifié des problèmes d'avance sur le déploiement?
  • Le processus de gravure a-t-il abouti à toute stabilité de la plate-forme supplémentaire par rapport à celle-ci n'effectue pas cette étape?
  • Que faites-vous quand Ajoutez RAM à un serveur d'exécution existant?
31
ewwhite

J'ai trouvé un - document de Kingston détaillant comment ils fonctionnent avec la mémoire du serveur, je pense que ce processus serait normalement identique pour les fabricants les plus connus. Des copeaux de mémoire, ainsi que tous les dispositifs à semi-conducteurs, suivent un motif de fiabilité/défaillance particulier appelé courbe de baignoire:

enter image description here

Le temps est représenté sur l'axe horizontal, en commençant par l'expédition d'usine et en continuant à travers trois périodes distinctes:

  • Échecs de la vie précoce: la plupart des défaillances se produisent au cours de la période d'utilisation précoce. Cependant, au fil du temps, le nombre d'échecs diminue rapidement. La période de défaillance du début de la vie, montrée en jaune, est d'environ 3 mois.

  • Durée de vie utile: pendant cette période, les défaillances sont extrêmement rares. La période de vie utile est illustrée en bleu et est estimée à 20 ans et plus.

  • Échecs de fin de vie: éventuellement, les produits semi-conducteurs portent et échouent. La période de fin de vie est illustrée en vert

Maintenant que Kingston a noté que les taux d'échec élevés auraient lieu les trois premiers mois (après ces trois mois, l'unité est considérée comme bonne jusqu'à ce qu'elle soit EOL environ 15 à 20 ans plus tard). Ils ont conçu un test à l'aide d'une unité appelée KT2400 qui teste brutalement le serveur modules de mémoire pendant 24 heures à 100 degrés Celsius à haute tension, par lequel toutes les cellules de chaque puce DRAM sont continuellement exercées; Ce niveau élevé de test de contrainte a pour effet de vieillir les modules d'au moins trois mois (comme indiqué avant la période critique où la plupart des modules montrent des échecs).

Les résultats étaient:

En mars 2004, Kingston a lancé un essai de six mois dans lequel 100% de sa mémoire serveur a été testée dans le KT2400. Les résultats ont été surveillés étroitement pour mesurer le changement des échecs. En septembre 2004, une fois que toutes les données de test ont été compilées et analysées, les résultats ont montré que les échecs ont été réduits de 90%. Ces résultats ont dépassé les attentes et représentent une amélioration significative pour une gamme de produits déjà en haut de sa catégorie.

Alors, pourquoi la brûlure en mémoire n'est-elle pas utile pour la mémoire du serveur? Simplement, parce que c'est déjà fait par votre fabricant!

25
Lucas Kauffman

Non.

L'objectif de brûler dans le matériel est de le souligner au point de catalyser une défaillance d'une composante.

Faire cela avec des disques durs mécaniques obtiendra quelques résultats, mais cela ne va tout simplement pas faire beaucoup pour la RAM. La nature de la composante est telle que les facteurs environnementaux et l'âge sont beaucoup plus susceptibles d'être la cause des échecs que de lire et d'écrire sur le RAM (même à sa largeur de bande maximale pendant quelques heures ou quelques jours. ) serait jamais.

En supposant que votre RAM= est une qualité suffisamment élevée que la soudure ne fonde pas la première fois que vous commencez à l'utiliser, un processus de gravure ne vous aidera pas à trouver des défauts.

30
Shane Madden

Nous achetons des lames et nous achetons généralement dans un bloc assez large d'entre eux à la fois, en tant que tels, nous les installons et les installerons sur des jours avant que nos ports réseau soient prêts/sécurisés. Nous utilisons donc ce temps pour utiliser MEMTEST pendant environ 24 heures sur 24, parfois plus longtemps si cela dépasse un week-end - une fois que cela est fait, nous vaporisons dans la base de la base ESXI et IP est prêt pour que son profil d'hôte soit appliqué une fois que le réseau est atteint. Alors oui, nous le testons, plus de possibilités que la nécessité, mais il a attrapé quelques DOA DIMM avant maintenant, et ce n'est pas moi le faire physiquement, cela ne me prend pas d'effort. Je suis pour ça.

15
Chopper3

Eh bien, je suppose que cela dépend exactement de vos processus. Je gère toujours MemTest86 sur la mémoire avant de le mettre dans un système (serveur ou autre). Après avoir eu un système en marche et que vous courez, des problèmes causés par une mémoire défectueuse peuvent être difficiles à dépanner.

Comme pour "tester le stress", la mémoire; Je n'ai pas encore de voir pourquoi cela serait utile que si vous testez à des fins d'overclocking.

11
Atari911

Je ne le fais pas, mais j'ai vu des gens qui font. Je ne les ai jamais vus gagner de cela cependant, je pense que cela pourrait être une gueule de bois ou une superstition peut-être.

Personnellement, je suis comme vous dans le fait que les taux d'erreur du CEC sont plus utiles pour moi - en supposant que le RAM n'est pas DOA, mais alors vous sauriez de toute façon.

6
Sirex

Pour NO-ECC RAM exécutant 30 minutes sur MEMTEST86 + est utile car il n'y a généralement pas de méthode fiable de détection des erreurs de bits lorsque le système est en cours d'exécution.
Le criblage bleu n'est pas considéré comme une méthode fiable ...
Et légèrement flaky RAM===== Souvent pas immédiatement, seulement après que le système ait vu une charge à pleine mémoire, puis uniquement si les données dans ce RAM était le code qui a été utilisé puis s'est écrasé. La corruption des données peut passer inaperçue pendant de longues périodes.

Pour la RAM ECC, il ne fera rien que le contrôleur de mémoire lui-même ne fonctionnera pas, il n'a pas vraiment de sens. C'est juste une perte de temps.

Dans mon expérience, les gens qui insistent pour brûler sont généralement les vieux qui l'ont toujours fait comme ça et qui continuent de le faire hors d'habitude sans vraiment penser aux choses.
[.____] ou ils sont des jeunes gars à la suite de la procédure prescrite écrite par ces anciens gars.

6
Tonny

Ça dépend.

Si vous déployez 50 000 nouveaux béliers, vous savez que ce matériel particulier a un taux d'échec de 0,01% après avoir fonctionné moins d'une journée, de manière statistique, il faut y avoir plusieurs d'entre eux qui échoueront pour leur premier jour. Brûlant sont destinés à attraper cela. Avec des déploiements à cette échelle, une défaillance est attendue, pas une situation exceptionnelle.

Si vous ne déployez que quelques centaines d'articles, les statistiques sont très probablement de votre côté, car vous devez être tout à fait malchanceux d'obtenir des pièces défaillantes.

3
Lie Ryan