web-dev-qa-db-fra.com

Pourquoi mes disques durs échouent-ils?

J'ai un petit serveur Ubuntu en cours d'exécution à la maison, avec 2 disques durs. Il existe deux raids logiciels (RAID1) sur les disques, gérés par Mdadm, que je crois, n'est pas pertinent, mais en le mentionnant de toute façon.

Les deux disques durs sont digitaux occidentaux et ont été utilisés pendant environ 2 ans, lorsque l'un d'entre eux a commencé à faire des bruits en cliquant et est mort. Je pensais que c'est peut-être naturel après 2 ans, alors j'ai acheté un nouveau et resyndicait les matrices RAID. Après environ un mois, l'autre lecteur est également mort.

Je ne suis pas méfiante, puisque les deux lecteurs ont été achetés en même temps, ce n'est pas surprenant de les voir les deux près de l'autre, alors j'ai acheté un autre.

Jusqu'à présent, 2 anciens lecteurs ont échoué et 2 nouveaux dans le système. Après un mois, l'un des nouveaux entraînements est mort. C'est quand il a commencé à se méfier. Étant donné que le PC a été mis en place de certaines parties vraiment anciennes (pensez AthlonXP), j'ai pensé que le contrôleur SATA duboard est peut-être le coupable. Bien sûr, vous ne pouvez pas changer de pièces facilement dans un ancien PC comme celui-ci, alors j'ai acheté un système entier, nouveau MB, nouveau processeur, nouveau RAM. A pris juste l'échec de la route, puisqu'il s'agissait de la garantie, et l'ai remplacé.

Donc, il appartient à 2 lecteurs en panne des anciens et 1 entraînement en panne des nouveaux. Pas de problèmes, pour 1 mois. Une fois que ces erreurs ramènent à nouveau dans/var/log/messages, et Mdadm signalait des échecs de tableau RAID. J'ai commencé à me déchirer les cheveux. Tout est nouveau dans le système, il appartient à la troisième marque de disque dur, il n'est tout simplement pas possible que tous les nouveaux lecteurs que j'ai achetés étaient défectueux.

Voyons ce qui est toujours courant ... les câbles. D'accord, long coup, remplacons les câbles SATA. Prenez le disque dur, souriez au gars au comptoir et dites que je suis vraiment malchanceux. Il remplace le disque dur. Je rentre à la maison, passe un mois et l'un des disques durs échoue, encore une fois. Je ne plaisante pas.

Deux des nouveaux disques durs ont échoué. Peut-être que c'est un bug dans le système d'exploitation. Voyons ce que l'outil de test du fabricant dit. Téléchargez l'outil de test, grincez-le sur un CD, redémarrez, laissez des tests de disque dur pendant la nuit. Le test dit que le lecteur est défectueux et je devrais tout sauvegarder, si je le peux toujours. Je ne sais pas ce qui se passe, mais cela ne ressemble pas à un problème de logiciel, quelque chose est définitivement battant les disques durs.

Je devrais mentionner maintenant que tout le système est dans une boîte à chaussures. Comme il y a une charge de "construire votre propre cas IKEA", je pensais qu'il ne devrait pas y avoir de problèmes de lancer la chose dans une boîte et de le bourrer quelque part. La boîte est bien ventilée, mais je pensais que juste peut-être que les lecteurs se surchauffaient. Il n'y a pas d'autre réponse possible à cela. J'ai donc ramené le disque dur et je l'ai remplacé (pour la 3ème fois) et acheté des refroidisseurs de disque dur.

Et juste maintenant, j'ai entendu le son du destin. Cliquez sur Cliquez sur Whizzzzzzzzz . Ssh dans la boîte:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

sortie DMESG:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

Résumer:

  1. Aucune possibilité de surchauffe
  2. 6 lecteurs ont échoué, 4 de ceux-ci ont été neufs. Je ne sais pas maintenant que les deux originaux ont été défectueux ou ont subi la même chose que les nouvelles.
  3. Il n'y a rien de courant dans le système, mis à part le système d'exploitation qui est Ubuntu Karmic maintenant (commencé avec Jaunty). Nouveau MB, nouveau processeur, nouveau RAM, nouveaux câbles SATA.
  4. Non, les petits trous sur le disque dur ne sont pas couverts

Je pleure. Vraiment. Je n'ai pas le visage pour revenir au magasin maintenant, il n'est pas possible que 4 lecteurs échouent de moins de 4 mois.

Quelques idées que j'ai pensées: est-il possible que je gâche quelque chose quand je partitionne et resynchronise les lecteurs? Peut-il être si mauvais qu'il épave physiquement le lecteur? (Étant donné que l'outil fourni par le fournisseur indique que le lecteur est endommagé) Je fais la partitionnement avec FDISK et utilisez la même taille de bloc pour les partitions RAID1 (je vérifie les tailles de blocage exactes avec FDISK -LU)

Est-il possible que le noyau Linux ou Mdadm, ou quelque chose ne soit pas compatible avec cette marque exacte de disques durs et les traverse?

Est-il possible que ce soit la boîte à chaussures? Essayez de le placer ailleurs? C'est sous une étagère maintenant, alors l'humidité n'est pas un problème non plus. Est-il possible qu'un étui PC normal résoudra mon problème (je vais me tirer dessus)? Je vais avoir une photo demain.

Suis-je simplement maudit simplement?

Toute aide ou spéculation est grandement appréciée.

Edit: La bande d'alimentation est surveillée contre les surtensions.

Edit2: Je suis entré dans ces 4 mois, la possibilité de la cause étant "sale" d'électricité dans les deux endroits est très faible.

Edit: J'ai vérifié les tensions du BIOS (ne pouvait pas emprunter un multimètre), et ils semblent tous corrects, la plus grande divergence est la 12v, car elle fournit 11.3. Devrais-je m'inquiéter à ce sujet?

Edit4: Je place la PSU de mon ordinateur de bureau sur le serveur. Le BIOS a signalé beaucoup plus de lectures de tension précises, et elle a également reconsculé avec succès le tableau RAID1, qui a pris environ 3-4 heures, alors je me sens un peu positif maintenant. Obtiendra une nouvelle PSU demain pour tester avec cela. En outre, attachez la photo sur la boîte: (Ne tenez pas compte du 3ème lecteur)

picture of box of Doom

23
K. Norbert

Votre alimentation électrique est-elle aussi ancienne? Peut-être que c'est sous/accabler le lecteur qui provoque l'échec. Si vous avez un multimètre, j'essaierais de mesurer la tension qui fonctionne dans vos disques durs et de le regarder sur une période de temps. Un autre coupable peut être "sale" de l'électricité, de sorte qu'un UPS peut être en ordre de sorte qu'il "nettoie" le pouvoir entrer dans l'UAP.

26
Wayne Hartman

Je suis d'accord avec les autres: le pouvoir.

Cependant, avec une torsion.

Tous les composants doivent avoir un terrain d'entente - le châssis est typique, mais dans votre cas, qui sait! Un "terrain dérivant" provoquerait cela, je suis sûr.

Vous voulez que tous les composants liés à un seul terrain et que la terre attachée à la terre de la "grille de puissance" de votre établissement. C'est important.

BTW, c'est possible que tout votre ancien matériel est toujours correct! J'ai constaté que les équipements servis avec une alimentation floconneuse survient parfois bien lorsqu'un approvisionnement approprié est fourni.

J'espère que ça aide.

RT

14
Richard T

Ceci est un ancien poste et la question initiale ne peut plus être pertinente pour la personne qui pose la question. Toutefois, pour la référence future aux personnes qui construisent un PC budgétaire, la puissance n'est pas une question globale avec des lecteurs de disque. C'est, dans mon opinion professionnelle en tant qu'ingénieur de mise en œuvre certifié CEM, une réponse trompeuse à blâmer une alimentation en tant que partie responsable de la seule partie responsable étant donné que l'ordinateur est à l'intérieur d'une boîte de carton.

Les disques durs vibrent, et bien qu'il n'y ait pas de position particulière, verticale ou horizontale, qui augmente ou diminue la longévité d'un disque, il y a cependant un facteur de vibration qu'un disque dur avec des broches crée. Les lecteurs affichés ici ne sont que posés dans une boîte de carte de carte. Ceci est un exemple d'ingénierie budgétaire et les lecteurs vibrants sont assis sur le côté, augmentant ainsi la résonation sur le plateau. Bien que ce ne soit pas une réponse en soi, des disques durs mal montés peuvent entraîner une faute de disque à cause d'un plateau vibrant perturbant les têtes de lecture et d'écriture de toucher correctement le plateau.

L'alimentation, les alimentations de puissance bon marché sont toujours mauvaises pour les ordinateurs en général, mais il est peu probable que ce PSU a tué les disques durs et non plus d'autres composants plus sensibles au conseil. Ce système est dans une boîte en carton, de sorte que l'ingénierie et la puissance auraient pu conduire à une défaillance plus catastrophique, mais pas nécessairement sa faute de disque. C'est possible, mais pas prouvé dans ce cas.

Chaleur: la chaleur peut détruire un disque, cependant, s'il n'était pas chaud au toucher au moment de l'échec, la chaleur n'est pas le coupable. Une boîte de carte de carte n'est pas un bon exploit d'ingénierie pour un PC ou un serveur. Vous feriez mieux de bonder vos pièces sur un bureau d'ordinateur ou un banc de travail, au moins ils seraient mis à la terre.

Raid doux et disques bon marché. Compte tenu de la boîte de carton et des anciennes pièces visualisées sur la photo, vous semblez utiliser des lecteurs de bureau standard et un raid doux. Les lecteurs de bureau peuvent toutefois être placés sur un contrôleur RAID, avec l'augmentation des E/S sur le disque, les chances d'une défaillance de disque augmente. Les disques imaginés dans ce cas ne sont pas sur un contrôleur de raid matériel, mais sont regroupés avec un composant logiciel de la carte mère. Ce n'est pas idéal pour les disques durs. Cela augmente la charge de travail de votre CPU et des raids doux ont été connus pour avoir des erreurs et tuer prématurément les disques durs. Il est probable que le raid doux a tué ces entraînements avant tout.

Prévention des constructions futures: si vous lisez ceci et que vous voyez cet ancien scénario d'utilisateur via Google Question ou ce qui n'est pas:

-Sursure que vos disques sont correctement montés dans un châssis de disque dur stable. Boulez dans vos disques avec au moins 4 vis de disque dur ou utilisez une traîneau à disques spéciale qui va avec votre châssis.

-Sure que vous avez un flux d'air adéquat dans votre cas, les disques durs dans un raid ont tendance à avoir plus d'E/S sur le disque et seront beaucoup plus chauds que si le volume physique est monté individuellement.

-L'utilisez pas d'alimentation bon marché. Dirty Power est un tueur de pièces d'ordinateur coûteuses. Assurez-vous également que votre alimentation offre suffisamment de puissance pour gérer la charge de travail souhaitée.

-Utilisez une carte de contrôleur RAID! N'utilisez jamais le raid doux sur votre carte mère. Le RAID doux réduit les performances du disque et augmentez plus les chances des défaillances de disque plus que celle d'une carte de contrôleur RAID.

-Raid en général augmente les chances de défaillance du disque en raison de l'augmentation d'E/S à travers tous vos volumes. Plus la piscine des disques est jointe, plus les chances d'échec des lecteurs défaillants sont élevés. Si vous raidez vos lecteurs, utilisez toujours des lecteurs de parité et des pièces de rechange chaudes. Vous pouvez perdre vos données si vous raidez 0 2-3 disques. Si vous avez 3 disques, utilisez RAID 5! 6 disques sur RAID 5 (4 + 1) avec une rechange chaude est idéal si vos lecteurs sont couverts par une garantie. Si vous ne pouvez pas vous permettre plus de disques ou que vos disques sont hors de garantie, n'utilisez pas de raid.

-Desktop Drives ne sont pas des lecteurs d'entreprise. Les lecteurs de bureau sont similaires aux entraînements d'entreprise, mais ne sont pas conçus pour gérer d'énormes charges de travail apportées avec des contrôleurs RAID. Si vous achetez des montants de bureau de NewEgg et les raids sur votre carte mère, vous êtes susceptible de voir au moins un échec de la conduite dans votre première année. Plus vous utilisez plus longtemps votre machine sur un raid, plus d'E/S sont écrits sur le disque et plus la probabilité que votre volume aura des échecs. Combinez des lecteurs bon marché avec un raid doux de carte mère bon marché et vous ferez mal.

Il est probable que cet utilisateur ait connu tous ces facteurs dans son serveur de boîtes à chaussures. Puissance bon marché, débit d'air mauvais, vieux lecteurs bon marché non bien montés dans un châssis et une raid doux de la carte mère ... Tout cela augmente les chances d'une faute de disque.

5
user2809007

Je ne peux pas imaginer comment vous avez une bonne ventilation et refroidir dans une boîte à chaussures? Vous devriez vraiment chasser les 50 ou 60 dollars pour un véritable boîtier d'ordinateur?

Les bandes de puissance ne protège que contre les surtensions de puissance; Des problèmes courants pour les équipements électroniques sont sous tension (brun out) et sur la tension (PHICK). Le bruit de l'EMI est également commun - nous avions un ordinateur instable au dos, qui s'est avéré être causé par un tapis roulant sur le même circuit (j'ai personnellement vérifié cela au-delà du doutement). Il lancerait le modem hors ligne et amener le système à geler de temps en temps.

En outre, une exposition continue au bruit et aux fluctuations de l'alimentation avec éventuellement endommager l'UAP, au fil du temps, en diminuant la qualité de la puissance délivrée à l'électronique.

EDIT: Les fluctuations d'énergie électrique peuvent être isolées à des circuits spécifiques. Plus important encore, des appareils à tirage élevé tels que les micro-ondes, les réfrigérateurs, les tapis de course, la cuisinière et similaires peuvent avoir un impact significatif sur la qualité de puissance sur ce circuit. Et des choses comme les réfrigérateurs ont également un cycle de fonctionnement continuuel/décalé qui, en tournant les brunissements et les pointes, puissance sur la ligne lorsque le moteur frappe et sortez.

De plus, si vous êtes servi par la même entreprise d'électricité, ils peuvent avoir une difficulté à fournir une tension de la même manière dans la planche. La fluctuation constante entre 105V et 125V aura un effet négatif sur l'électronique (comme je le comprends).

4
Lawrence Dol

Cela ressemble vraiment à des problèmes de pouvoir.

Si vous avez des surtensions électriques, de nombreuses bandelettes de puissance bon marché ne fonctionneront qu'une fois - et il n'y a généralement aucune indication qu'elles ne protègent plus.

Un bon hausse pourrait aider - certains des plus haut de gamme génèrent des puissances des batteries et se rechargent en permanence, offrant une puissance complètement isolée. Le seul inconvénient est qu'ils peuvent être bruyants.

2
chris

En fait, les fabricants de disque dur n'empêchent pas les informations concernant les positions de travail sur leurs lecteurs, mais debout les disques durs de leurs côtés sont parfaitement acceptables. La dernière fois que j'ai vérifié cette information, les lecteurs pouvaient être positionnés à plat ou sur leurs côtés, et jusqu'à un angle de 5 ou 10 degrés de ces positions. Les poser à l'envers ou les connecteurs tournés vers le haut ou le bas ne sont pas des postes juridiques. Les connecteurs tournés vers le haut ou le bas étaient la meilleure position pour le transport il y a environ 15 ans. Ceci est la dernière information que j'ai à ce sujet.

J'ai le même type d'erreur sur un tout nouveau disque dur vert de 500 Go WD WD, et vos câbles SATA ressemblent à la mienne, et je les soupçonne mal.

Le problème de mise à la terre n'est pas correctement une mauvaise chose, les composants doivent être mis à la terre par le montage correct sur un cas métallique, mais ne pas faire cela ne devrait pas être un problème si tous les connecteurs et câbles sont 100% ok.

Bien sûr, une mauvaise alimentation peut faire beaucoup de mauvaises choses pour l'ensemble du système, je vais tester avec un nouveau PSU dès que possible, de préférence avec tout monté sur un châssis décent.

Bonne chance

2
Sérgio Gaspar

Je conviens que le mauvais terrain est le coupable probable. Cependant, envisagez de surchauffer comme une cause possible. Si les lecteurs sont chauds au toucher, ils sont trop chauds. Mettre un fan sur eux.

1
Chris Nava

Vous devriez probablement mettre à jour votre installation Ubuntu. Il y a quelques mois (années?) Il y a quelques mois, un bogue a été trouvé qui provoque une usure de disque dur accrue dans les installations Ubuntu.

Consultez ce lien à propos de ce problème/bogue: fréquence élevée des cycles de charge/déchargement sur certains disques durs peuvent raccourcir la durée de vie

0
cyclo

Vérifiez les séparateurs d'alimentation qui divisent la puissance pour les ventilateurs de lecteur. Un connecteur intermittent peut entraîner une perte de courant au moment critique et la crash. Il est certainement besoin d'un cas pour un sol solide entre MB, PSU et HD.

0
Steve