web-dev-qa-db-fra.com

Fréquence de la batterie de cache de cache de matériau du matériel de raid.

Je suis dans un environnement qui contient plusieurs serveurs Supermicro équipés de Adaptec et LSI Megaraid contrôleurs de raid matériel. Ces contrôleurs contiennent des modules de cache sauvegardés par batterie pour renforcer les performances d'écriture et protéger les données en transit.

Un problème de support fréquent est une défaillance de la batterie du contrôleur RAID. Ceci déplace le tableau de Récupération de l'écriture à en mode écriture . Il existe clairement un impact négatif sur la performance que le système fonctionne avec une vitesse d'écriture dégradée. Cela persiste jusqu'à ce qu'une fenêtre de temps d'arrêt puisse être établie pour alimenter le système et remplacer la batterie.

C'est une opération très routine pour nous; presque hebdomadaire sur plusieurs milliers de serveurs physiques ... Nous avons même des stations de charge en place pour préparer des batteries de remplacement afin que peuvent être échangés sans cycle de charge .

Peut-être que je suis gâté par une longue histoire avec des serveurs HP ProLiant et contrôleurs Raid Smart Array , mais HP Systems avait généralement une durée de vie de la batterie de 4 à 6 ans. Ils ont finalement éliminé l'utilisation de piles RAID autour de 2009. Ils ont été remplacés par des modules de mémoire à dos SuperCapacitor (cache d'écriture sauvegardée par flash ou FBWC) et ne nécessitent pas de remplacement, d'élimination ou d'un long cycle de charge initial.

Depuis que je vois que les défaillances de la batterie Adaptec et LSI contrôleur se produisent parfois sur des systèmes qui ont été en service inférieur à 12 mois, je me demande si cela est courant dans autres environnements.

Si cela est courant, comment d'autres environnements de serveur de gros fonctionnent-ils?

  • Toute astuces ou astuces pour manipuler les remplaçants de la batterie RAID?
  • Y a-t-il des paramètres de configuration pouvant aider?
  • Comment la perturbation est-elle à fonctionner dans votre environnement ?
  • Un mauvais refroidissement de châssis pourrait-il être un facteur?
  • Faisons-nous quelque chose de mal?
  • Les contrôleurs Dell PERC sont fabriqués par LSI. Les environnements Dell font-ils l'expérience de la même courte durée de vie de la batterie?

littérature de produits LSI décrivant une batterie de nouvelle génération pouvant durer plus longtemps que 1 an.  enter image description here

Server HP ProLiant DL585 G2 avec 1000+ jours de disponibilité et une batterie RAID heureuse ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
14
ewwhite

Je soupçonne que vos supermicros sont brisés d'une manière ou d'une autre - éventuellement les batteries surchauffe. Le SISIS le plus récent signalerait la température via MegaCli - vous voudrez peut-être surveiller cette valeur sur les serveurs qui nécessitait du remplacement.

root@Host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

J'ai vu quelques systèmes Dell et Fujitsu avec des contrôleurs BBU LSI, aucun d'entre eux n'avait de remplacement annuel de batterie (sauf que vous avez vissé l'emballage par des décharges profondes). La durée de vie typique est d'environ 3 à 5 ans.

9
the-wabbit

Mon expérience avec des versions IBM des plates-formes LSI sur quelques centaines d'installées est que la batterie moyenne fait à peine 2 ans et la supercap n'est pas meilleure, dont certaines peuvent être corrigées avec une mise à jour du micrologiciel, mais LSI ne l'a pas fait droit. J'ai eu environ 75% de défaillances Supercap au cours des 2 premières années.

1
Mark

La vie moyenne de la batterie devrait être de 3 à 5 ans. Et n'oubliez pas que FBWC basé sur Flash échoue également. Je ne sais pas pourquoi/comment, mais nous les remplaçions régulièrement sur nos serveurs HP. Je devrais durer plus longtemps que la batterie, mais je n'ai pas de statistiques de nos serveurs individuels.

Le moyen standard d'empêcher les effets de la batterie défaillante et l'apprentissage de la batterie est d'avoir plusieurs batteries. C'est ainsi que le stockage HP (comme HP Eva) l'a. Vous avez 2 batteries à chaud et tandis que l'une est faible ou être remplacée, le contrôleur fonctionne avec le reste. Je ne suis sûr que s'il est possible d'avoir plusieurs piles connectées à SmartArray, mais hpacucli _ diag Sortie suggère qu'il devrait être pris en charge:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
1
Marki555