Que signifient ces erreurs de disque dans syslog?

Question

Je viens de redémarrer mon serveur de surveillance pour la première fois depuis un certain temps, et les éléments suivants ont commencé à remplir l'écran:

Jul 11 23:52:30 monit kernel: [ 25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Jul 11 23:52:30 monit kernel: [ 25.256170] ata1.00: BMDMA stat 0x24 Jul 11 23:52:30 monit kernel: [ 25.256278] ata1.00: failed command: READ DMA Jul 11 23:52:30 monit kernel: [ 25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in Jul 11 23:52:30 monit kernel: [ 25.256416] res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error) Jul 11 23:52:30 monit kernel: [ 25.256809] ata1.00: status: { DRDY ERR } Jul 11 23:52:30 monit kernel: [ 25.256933] ata1.00: error: { UNC } Jul 11 23:52:30 monit kernel: [ 25.304388] ata1.00: configured for UDMA/66 Jul 11 23:52:30 monit kernel: [ 25.304430] ata1: EH complete . . . Jul 11 23:52:30 monit kernel: [ 25.552451] sd 0:0:0:0: [sda] Unhandled sense code Jul 11 23:52:30 monit kernel: [ 25.552462] sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE Jul 11 23:52:30 monit kernel: [ 25.552475] sd 0:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor] Jul 11 23:52:30 monit kernel: [ 25.552490] Descriptor sense data with sense descriptors (in hex): Jul 11 23:52:30 monit kernel: [ 25.552498] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 Jul 11 23:52:30 monit kernel: [ 25.552529] 00 35 68 41 Jul 11 23:52:30 monit kernel: [ 25.552543] sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed Jul 11 23:52:30 monit kernel: [ 25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00 Jul 11 23:52:30 monit kernel: [ 25.552587] end_request: I/O error, dev sda, sector 3500097 Jul 11 23:52:30 monit kernel: [ 25.556607] ata1: EH complete

Je sais déjà que je dois remplacer le disque dur (coût des données> coût du disque dur), mais je veux savoir par moi-même ce qui est en fait mal avec ça.

Oui, notre serveur de surveillance n'a pas de RAID, juste un disque dur ... Ne me regardez pas ...

mgorven · Accepted Answer

sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed

Il semble que le lecteur ait des secteurs défectueux et ne puisse pas les réaffecter (peut-être parce qu'il est à court de secteurs de rechange). La sortie de smartctl -a /dev/sda vous donnerait plus d'informations sur l'état du lecteur.

womble · Answer

Lassie dit "arf! Arf arf! Arf!". Ce qui est stupide, car cela a rien à voir avec les puits Timmy o. C'est pourquoi vous ne suivez pas les conseils d'administration des chiens.

Le lecteur vous donne une "erreur de lecture non récupérée - échec de la réaffectation automatique", ce qui signifie essentiellement "j'ai essayé de lire, j'ai échoué, j'ai essayé de récupérer (lire le secteur plusieurs fois de plus, appliquer un ECC et déplacer les données vers un secteur qui n'est pas cassé), et ça n'a pas marché ". Cela signifie probablement (comme le dit mgorven) que le disque est déjà plein de secteurs réaffectés, car le disque est en train de mourir depuis un certain temps, mais je pense également que cela peut signifier qu'il n'a pas été en mesure de récupérer le secteur du tout (lectures répétées + ECC n'a pas réussi à obtenir un bloc de données beau).

De toute façon, oui, le lecteur est très, très cactus. Vos données ne semblent pas vraiment saines non plus.

Wolfgang Noichl · Answer

Je sais que c'est vieux, mais juste au cas où quelqu'un lirait encore ce post: "DD essaiera également de lire les secteurs cassés" - gddrescue est utile ici. Ce n'est pas le cas (d'accord, mais une seule fois).

rackandboneman · Answer

Faites une image dd ou une copie rsync de ce disque maintenant ++, sauf si vous avez une sauvegarde complète permettant une restauration pratique de cette boîte. Et commencez à chercher un disque de remplacement compatible et fonctionnel.

BTW, UDMA/66, est-ce un disque PATA de dix ans?

Pierz · Answer

Comme déjà mentionné, cela signifie probablement que votre lecteur approche de sa fin de vie, mais pas nécessairement immédiatement - vous devez exécuter un fsck sur le disque et essayer de réparer les erreurs (voir wiki smartmontools pour conseils pour réparer les mauvais blocs) et le disque peut être ok pendant un certain temps.

Mais vous devez commencer à exécuter smartd (qui fait partie du package smartmontools) et garder un œil sur ses rapports et/ou configurer des notifications par e-mail. Vous pouvez également ajouter vos propres notifications en créant des scripts (dans /etc/smartmontools/run.d/) qui sont appelés par le smartd-runner.