web-dev-qa-db-fra.com

Comment interpréter ces données SMARTCTL (SMARTMON)

Nous avons un serveur Linux qui a été utilisé pendant 3 ans. Nous exécutons un certain nombre de serveurs virtualisés sur celui-ci, certains qui n'ont pas été bien comportés et, pour une période considérable, la capacité de l'IO du serveur a été dépassée menant à Bad Iowait. Il dispose de 4 500 Go de barracuda SATA connectées à un contrôleur RAID 3COM. 1 Drive a le système d'exploitation et les 3 autres sont configurés RAID-5.

Nous avons maintenant un débat sur la condition des lecteurs et si elles échouent activement.

Voici une partie de la sortie pour 1 des 4 disques. Ils ont tous des statistiques relativement similaires:

 Smart Attributs Structure de données Numéro de révision: 10 
 Fournisseur spécifique SMART Attributs avec seuils: 
 1 brut_read_error_rate 0x000f 118 099 006 Pré-échec toujours - 169074425 [.____] 3 spin_up_time 0x0003 095 092 000 Pré-échec toujours - 0 [ .____] 5 réallocated_sector_ct 0x0033 100 100 036 Pré-échec Toujours - 0 [.____] 7 Keark_error_rate 0x000f 077 060 030 Pré-échec toujours - 200009354607 [ ____] 10 spin_retry_count 0x0013 100 100 097 Pré-échec toujours - 1 [.____] 12 Power_Cycle_Count 0x0032 100 100 020 Old_AGE A LWONS - 26 [ ____ - 29 (0 21 0 0) 
 195 Hardware_ecc_rocovered 0x001a 046 033 000 Old_AGE Toujours - 169074425 [ Hors ligne - 0 [.____] 199 UDMA_CRC_ERROR_COUNT 0X003E 200 200 000 OLD_ Âge toujours - 0 
 
 Version du journal d'erreur intelligente: 1 [.____] Aucune erreur enregistrée [.____]

Mon interprétation est que nous n'avons pas eu de mauvais secteurs ni d'autres indications que l'un des lecteurs échoue activement.

Cependant, le Haut Raw_Read_Error_Rate et Demand_error_rate sont indiqués comme des indications que les entraînements meurent.

21
gview

Dans mon expérience, les Seambates ont des nombres étranges pour ces deux SMART. Lors du diagnostic de Seagate, j'ai tendance à ignorer ceux-ci et à regarder de plus près dans d'autres domaines tels que le nombre de secteurs réaffecté. Bien sûr, en cas de doute. Remplacez le lecteur, mais même les nouveaux marins nouveaux auront des nombres élevés pour ces attributs.

8
hwilbanks

Pour les disques Seagate (et éventuellement quelques vieux de WD de WD), la recherche_error_rate et Raw_Read_error_rate sont des numéros de 48 bits, où les 16 bits les plus significatifs sont un nombre d'erreurs et les 32 bits de 32 basses sont un certain nombre d'opérations.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Votre disque a donc effectué 2440858991 cherche, dont 46 échoués. Mon expérience avec Seagate Drives est qu'elles ont tendance à échouer lorsque le nombre d'erreurs dépasse 1000. YMMV.

61
tsuna

Le taux d'erreur de recherche "et" taux d'erreur de lecture bruts "RAW_Values ​​ne sont pas pratiquement de sens pour quiconque mais le soutien de Seagate. Comme les autres ont souligné, les valeurs brutes des paramètres tels que "le nombre de secteurs réaffecté" ou les entrées du journal des erreurs du lecteur sont plus susceptibles d'indiquer une probabilité plus élevée de défaillance.

Mais vous pouvez jeter un coup d'œil aux données interprétées dans la valeur, les colonnes pires et les pires qui sont censées être lues comme des jauges:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Cela signifie que votre taux d'erreur de recherche est actuellement considéré comme "77% bien" et est signalé comme un problème de SMART quand il atteint "30% de bien". C'était aussi bas que "60 % bonnes "une fois, mais a été récupérée comme par magie depuis. Notez que les valeurs interprétées sont calculées par le lecteur SMART logique en interne et le calcul exact peuvent être publiés ou non par le fabricant et ne peuvent généralement pas être publiés par le fabricant et ne peuvent généralement pas être publiés. modifié par l'utilisateur.

Personnellement, j'envisage un lecteur contenant des entrées de journal d'erreur en tant que "échec" et demandez un remplaçant dès qu'ils se produisent. Mais tout dans tout, SMART Data s'est avéré être un indicateur plutôt faible pour la prévision de défaillance, en tant que document de recherche publié par Google découvert.

10
the-wabbit

J'ai réalisé que cette discussion est un peu ancienne mais je veux ajouter mes 2 cents. J'ai trouvé les informations intelligentes pour être un bon indicateur de pré-échec. Lorsque vous obtenez un seuil intelligent trébuché, remplacez le lecteur. C'est ce que ces seuils sont pour.

La grande majorité du temps vous allez commencer à voir des secteurs défectueux. C'est un signe sûr que le lecteur commence à échouer. =SMART= m'a sauvé plusieurs fois. J'utilise le logiciel RAID 1 et il est très utile car vous remplacez simplement le lecteur d'échec et reconstruisez le tableau.

Je suis également exécuté à une heure courte et longue à l'hebdomadaire.

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

Ou ajoutez-le /etc/smartd.conf et faites-le vous envoyer un e-mail s'il y a des erreurs

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

Assurez-vous d'installer LOGWATCH et de rediriger la racine à une adresse électronique et de vérifier les emails quotidiens de LogWatch. Les drapeaux trébuchés par SmartD seront présents là-bas, mais il n'est pas d'aide si personne ne le surveillait régulièrement.

5
Fred Flint

Oui, ces champs ont l'air mauvais, mais je ne fais plus confiance (plus) Les informations signalées par Smart (mon appareil de test ont un lecteur qui devrait être mort il y a longtemps si vous lisez les données avec SmartCtrl), le fait est que vous avez signalé High Iowait et les lecteurs ont 3 ans. Cela devrait être suffisant pour que vous puissiez changer les lecteurs.

1
migabi

Désolé de commettre la nécromancie sur ce post, mais dans mon expérience, le "taux d'erreur de lecture brute" et "matériel de récupération de CEC" pour un lecteur Seagate vont littéralement partout sur la place et incrémenter constamment dans La portée des trillions à laquelle ils vont se retourner à zéro pour continuer le processus à nouveau. J'ai un Seagate ST9750420AS qui a eu ce problème depuis le premier jour et fonctionne toujours bien, même après quelques années et plus de 300 heures d'utilisation.

Je pense que ces champs peuvent être ignorés en toute sécurité si vous utilisez une dans votre cas. Assurez-vous simplement que les deux champs signalent le même numéro et synchronisés constamment. S'ils ne sont pas ... bien ... cela pourrait signifier un problème.

0
Ryan Gandy

Pour automatiser les calculs de cette réponse , utilisez la calculatrice JavaScript en ligne:

https://yksi.ml/

Cela vous dira:

  • Nombre total d'opérations
  • Nombre d'opérations ayant échoué

La calculatrice est valable pour Seagate:

  • Taux d'erreur
  • Taux d'erreur de lecture bruts
  • Matériel ECC récupéré

Pour une lecture supplémentaire sur le calcul des valeurs normalisées (entre 0 et 100 valeurs), voir cet article .

0
Tom Hale