Évaluer les dommages matériels suite à une grève de la foudre - aurais-je davantage planifié?

Question

L'un des sites de mon client a reçu un coup de foudre direct la semaine dernière (sur coïncidence sur vendredi 13 !).

J'ai été éloigné sur le site, mais je travaille avec quelqu'un sur place, j'ai découvert un schéma d'étrange de dommages. Les deux liaisons Internet étaient en panne, la plupart des serveurs étaient inaccessibles. Une grande partie des dommages sont survenus dans le MDF , mais une fibre connectée [~ # ~ ~] idf [~ # ~] aussi Perdu 90% des ports sur un membre de la pile d'interrupteur. Les ports de commutation de rechange suffisants étaient disponibles pour redistribuer le câblage ailleurs et reprogrammer, mais il y avait des temps d'arrêt lorsque nous avons poursuivi les appareils affectés.

C'était une nouvelle installation de construction/entreposage et beaucoup de planification entra dans la conception de la salle serveur. La salle des serveurs principale est exécutée d'un APC SmartUps RT 8000VA UPS en ligne à double conversion, soutenu par un générateur. Il y avait une distribution de puissance appropriée à tous les équipements connectés. Les sauvegardes de réplication et de systèmes de données hors site étaient en place.

En tout, les dégâts (que je suis au courant) était:

Échec de la carte de ligne de 48 ports sur un commutateur de châssis Cisco 4507R-E .
~~Échec de l'interrupteur Cisco 2960 sur une pile à 4 membres.~~ (oups ... câble d'empilement lâche)
Plusieurs ports flagiques sur un commutateur Cisco 2960.
HP ProLiant DL360 G7 carte mère et alimentation.
elfiq WAN Link Balancer.
Un modem de fax multitech.
WiMAX/antenne Internet sans fil fixe et injecteur de puissance.
Nombreux périphériques connectés PoE (téléphones VoIP, points d'accès Cisco Aironet, caméras de sécurité IP)

La plupart des problèmes ont été liés à la perte d'une lame de commutation entière dans le Cisco 4507R-E. Ceci contenait une partie de la mise en réseau VMware NFS et la liaison montante du pare-feu du site. Un hôte VMware a échoué, mais ha a pris soin de la connectivité de la mise en réseau des VM une fois de stockage a été restaurée. J'ai été obligé de redémarrer/du cycle d'alimentation Un certain nombre de dispositifs pour effacer les états d'énergie funky. Le temps de récupération était court, mais je suis curieux de Quelles leçons devraient être apprises ...

Quelles protections supplémentaires devraient être mises en œuvre pour protéger les équipements à l'avenir?
Comment devrais-je approcher la garantie et le remplacement? Cisco et HP remplacent les éléments sous contrat. Le coûteux elfiq WAN Link Balancer a un Blurb sur leur site Web qui a fondamentalement dit "Dommage, utilisez A Protecteur de surtension du résea ". ( On dirait qu'ils s'attendent à ce type d'échec)
Je suis là assez longtemps pour avoir rencontré des dommages causés par la tempête électrique dans le passé, mais avec un impact très limité; par exemple. une interface réseau de PC bon marché ou la destruction de mini-commutateurs.
Y a-t-il autre chose que je puisse faire pour détecter des équipements potentiellement flocants ou dois-je simplement attendre que le comportement étrange se supervise?
Était-ce tout simplement malchance, ou quelque chose qui devrait être vraiment comptabilisé dans la reprise des catastrophes?

Avec assez de $$$, il est possible de construire toutes sortes de licenciements dans un environnement, mais ce qui est un équilibre raisonnable de la conception préventive/réfléchie et une utilisation efficace des ressources ici?

sysadmin1138 · Accepted Answer

Il y a quelques emplois, l'un des centres de données de l'endroit où je travaillais était un étage sous une très grande antenne. Ce gros article mince et métallique était la chose la plus haute de la région et a été touchée par la foudre tous les 18 mois environ. Le centre de données lui-même a été construit vers 1980. Je ne l'appelle donc pas la chose la plus moderne, mais ils avaient une longue expérience de dommages à la foudre (les planches de diffusion série devaient être remplacées à chaque fois, qui est essentiel si les conseils de communication sont dans un système qui n'a pas eu de nouvelles pièces réalisées dans 10 ans).

Une chose qui a été soulevée par les vieilles mains est que tout ce que ce courant parasite peut trouver un moyen autour de tout et peut se propager dans un terrain d'entente une fois qu'il presse. Et peut ponter des lacunes aériennes. La foudre est un cas exceptionnel, où les normes de sécurité normales ne sont pas suffisamment bonnes pour prévenir les arcs et ira aussi loin que l'énergie. Et ça a beaucoup. S'il y a suffisamment d'énergie, il peut arc d'une grille de plafond suspendue (peut-être l'une des fils de suspension est peut-être suspendue à une boucle avec une liaison avec une poutre de construction dans le ciment) au sommet d'un rack à 2 postes et de là dans le goodies de réseautage.

Comme des pirates informatiques, il n'y a que tant que vous pouvez faire. Vos aliments d'alimentation ont tous des disjoncteurs sur eux qui serrent les tensions parasites, mais votre équipement de réseautage basse tension ne fait presque jamais et représente un chemin commun pour un courant extrêmement énergétique de route.

La détection de kit potentiellement floconneuse est quelque chose que je sais faire en théorie, mais pas en réalité. Votre meilleur pari est probablement de mettre le pignon suspect dans une zone et d'apporter délibérément la température dans la pièce dans la partie haute de la plage de fonctionnement et voir ce qui se passe. Exécutez des tests, chargez-vous. Laissez-le là pendant quelques jours. La contrainte thermique ajoutée sur tout dommage électrique préexistant peut éteindre des bombes de temps.

Cela a définitivement raccourcir la durée de vie de certains de vos appareils, mais découvrez lesquels sont difficiles. Les circuits de conditionnement de puissance à l'intérieur des alimentation peuvent avoir des composants compromis et transmettre une alimentation sale sur le serveur, ce que vous pouvez seulement détecter via l'utilisation de périphériques spécialisés conçus pour tester les alimentations.

Les grèves de foudre ne sont pas quelque chose que j'ai envisagé pour le Dr En dehors d'avoir un DC dans une installation avec un tige de foudre géant sur le toit. Généralement, une grève est une grève de ces choses qui se produisent si rarement cela est trop rafale sous "Acte de Dieu" et déplacé.

Mais ... vous en avez eu une maintenant. Il montre que votre établissement avait les bonnes conditions au moins une fois. Il est temps de procéder à une évaluation de la manière dont votre installation est présente les bonnes conditions et planifiez en conséquence. Si vous ne pensez que les impacts de la Lightning maintenant, je pense que c'est approprié.

MadHatter · Answer

J'ai réfléchi à cette question car il a récemment été édité en haut de la page d'accueil.

Je stipule librement que, pour des personnes comme Sysadmin1138 qui doivent faire face à des installations extrêmement attrayantes pour les grandes frappes de la foudre sur le toit DC, la planification d'une urgence spécifique pour une grande frappe a du sens. Mais pour la plupart d'entre nous, il s'agit d'une circonstance unique et j'ai pensé qu'une réponse plus généralement adaptée au reste d'entre nous pourrait avoir une certaine valeur.

Il est possible d'imaginer toutes sortes de personnes menaces de tracé de film ; Les scénarios qui pourraient certainement se produire, seraient incontestablement dépassant vos opérations commerciales s'ils le faisaient, mais qu'il n'y a aucune raison de penser avoir une probabilité élevée de se produire. Vous connaissez le genre de chose; Boulon d'avion/Boulon de foudre/ Dépôt d'huile à proximité Explodes /Tout autre scénario à risque plausible mais-fond.

Chacun d'entre eux a un plan d'atténuation spécifique qui pourrait être mis en place, mais je suggérerais que - Modulo ma stipulation ci-dessus - , il ne fait aucun sens d'affaires de le faire . Comme Schneier essaie de souligner dans la compétition ci-dessus, juste parce que vous pouvez imaginer que quelque chose qui se produise est une menace contre quelle planification spécifique vaut la peine, voire souhaitable. Qu'est-ce que fait Faire un bon sens de l'entreprise est un plan de continuité des activités à usage général, bien documenté, bien documenté.

Vous devez vous demander ce que les coûts d'entreprise sont d'une perte complète de site pour diverses périodes (par exemple, 24h, 96h, une semaine, un mois) et tentent de quantifier la probabilité de chaque occurrence. Ce doit être une analyse de coûts d'entreprise honnête, achetée par tous les niveaux de l'entreprise. J'ai travaillé sur un site où le chiffre généralement accepté de temps d'arrêt était de 5,5 millions de £/heure (et c'était il y a 20 ans, lorsque cinq millions de Quid étaient beaucoup d'argent); Avoir cette figure généralement convenu faite tellement tellement décisions tellement = plus facile, car ils sont devenus une question de mathématiques simples.

Votre budget est la perte projetée multipliée par les chances annuelles de cette perte; Voyez maintenant ce que vous pouvez faire pour atténuer cette menace pour le budget.

Dans certains cas, cela fonctionnera dans un centre de données de secours complet, avec un équipement froid, prêt à partir 24x7. Cela peut signifier un petit centre de données de secours, de sorte que l'interaction client puisse se poursuivre avec un nombre très réduit de fonctions de téléphonie et un site Web d'espace réservé à la perturbation. Cela peut signifier une seconde connexion Internet acheminée sur votre site principal sur votre site principal, à froid jusqu'à ce que nécessaire. Cela peut signifier que Mark Henderson note ci-dessus, l'assurance (mais une assurance qui couvre les pertes commerciales ainsi que les coûts réels de la reprise); Si vous pouvez dépenser votre budget de la Colombie-Britannique sur un seul morceau de papier qui couvrira tous vos coûts attendus en cas de catastrophe, il peut être logique d'acheter ce morceau de papier - mais n'oubliez pas de facturer échec de Sous-chef dans votre plan de risque d'entreprise. Cela peut signifier la mise à niveau des contrats de maintenance sur certains équipements essentiels à ceux extrêmement coûteux de quatre heures à résoudre. Seulement vous pouvez savoir ce qui a du sens pour votre entreprise.

Et une fois que vous avez ce plan, , vous devez vraiment tester le (avec l'exception possible des assurances). J'ai travaillé sur un site où nous avons eu un site complet à petite échelle à petite échelle, prêt à couper à 45 minutes en voiture de notre établissement principal. Lorsque nous avons eu un problème qui fermait le réseau de base vers le bas, nous avons fini par essayer de le réparer en direct au lieu de couper sur le site froid et puis Fixation du noyau et de la découpe. L'une des raisons pour lesquelles la défaillance de l'échec est-ce que nous n'avions aucune idée réelle du temps qu'il faudrait pour couper et réduire. Par conséquent, personne ne savait vraiment combien de temps les choses devraient être autorisées à courir sans se couper avant de prendre la décision de couper, si bien naturellement - il y avait une réticence pour décider de réduire. Têtes roulées après notre retour en ligne, 14 heures plus tard; Pas à cause de la panne en se, mais parce que beaucoup d'argent avaient été dépensés sur une installation pour atténuer une panne de jour et une panne qui s'était inutilisée pendant une telle panne.

En tant que point final, notez que des composants externalisés de votre plan d'entreprise sont pas Garanti pour fonctionner. Votre haute direction peut être assis là-bas de penser "Si nous mettons les serveurs dans le nuage, ils seront toujours là et nous pouvons tirer les sysadmins". Pas ça. Les nuages peuvent échouer comme autre chose ; Si vous avez externalisé des composants critiques à un fournisseur, tout ce que vous avez fait est de supprimer votre capacité à estimer les chances d'échec de ces composants. Les SLA sont très bien, mais à moins de ne pas être soutenu par des pénalités substantielles non performantes, elles ne sont pas de sens - pourquoi votre fournisseur pourrait-il dépenser de l'argent supplémentaire sur la disponibilité si elle pouvait simplement périsser et rembourser vos frais de service pour la période de Indisponibilité? Pour être fiables, vos SLAS doivent venir avec des pénalités qui se rapprochrent des coûts pour votre entreprise de la panne. Oui, cela augmentera beaucoup les coûts de sous-traitance; Et oui, c'est tout à fait attendu.