Exception de liaison de réinitialisation dure Emask 0x50 Sac 0x0 SerR 0x4090800 Action 0xE Frozen

Question

Situation suivante:

Un serveur productif Linux Debian 7 avec noyau 3.2.0-4-AMD64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

Fabricant: Supermicro Nom du produit: X10SLL-F Version: 1.02

Contrôleur SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2x SSD, 2x HDD

chaque lecteur peut faire SATA Rev3 (6,0 Go/s)

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport" Model Number: Toshiba THNSNH128GBST Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: Toshiba THNSNH128GBST Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: ST2000VX000-1CU164 Transport: Serial, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: ST2000VX000-1CU164 Transport: Serial, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set

Les messages du noyau suggèrent (à moi au moins) un problème avec les 4 disques qui mènent à croire que c'est le contrôleur SATA qui pourrait être en faute.

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata1: irq_stat 0x00400040, connection status changed ata1: SError: { HostInt PHYRdyChg 10B8B DevExch } ata1: hard resetting link ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata2: irq_stat 0x00400040, connection status changed ata2: SError: { HostInt PHYRdyChg 10B8B DevExch } ata2: hard resetting link ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata4: irq_stat 0x00400040, connection status changed ata4: SError: { HostInt PHYRdyChg 10B8B DevExch } ata4: hard resetting link ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata3: irq_stat 0x00400040, connection status changed ata3: SError: { HostInt PHYRdyChg 10B8B DevExch } ata3: hard resetting link ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: configured for UDMA/33 ata2: EH complete ata1.00: configured for UDMA/33 ata1: EH complete ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata3.00: configured for UDMA/33 ata3: EH complete ata4.00: configured for UDMA/33 ata4: EH complete

Ce que j'ai déjà trouvé (ou croyez avoir compris)

Les commandes SECURITY FREEZE LOCK Et DEVICE CONFIGURATION OVERLAY Ne sont pas importants pour le problème.

Tout en lisant environ 20 bugReports et beaucoup de documentations, quelques-uns liés certains ont suggéré de désactiver la NCQ, ce que j'ai fait.

Premièrement pour un périphérique, après avoir attendu 1 jour pour vérifier si l'erreur le répète se passe à nouveau et que je l'ai désactivée pour tous les 4 périphériques

echo "1" >/sys/block/sdc/device/queue_depth

Aucun changement évident dans la situation.

https://ata.wiki.kernel.org/index.php/libata_error_mesages

https://wiki.archlinux.org/index.php/solid_state_drives#resolving_ncq_errors

D'autres suggèrent un câble SATA ou même une incompatibilité entre le tableau + des lecteurs.

Cependant, même si je semble avoir le problème sur un lecteur et que cela remplit tous les 4, ou avoir le problème directement sur tous les 4 périphériques, je suis incapable d'identifier davantage le problème.

Comme il s'agit d'un serveur de production de mise en place de ce serveur pour la maintenance (AKA BIOS/Kernel Param Modifications) est possible, mais j'aime empêcher cela si possible.

Selon la Hoster, cela pourrait être une gestion de l'électricité:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_Host/host0/link_power_management_policy

Avant le changement, cela a été réglé sur max_performance.

Cela n'a pas aidé non plus.

Les valeurs intelligentes des HDDS/SDDS sont ok, rien de trop évident.

Notez que la valeur UDMA semble être 33 maintenant seulement.

Au démarrage du serveur, il s'agissait des valeurs de vitesse SATA Link:

[ 3.161850] ata6: SATA link down (SStatus 0 SControl 300) [ 3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300) [ 3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 3.161907] ata5: SATA link down (SStatus 0 SControl 300)

La situation peut se produire sur une charge élevée sur le disque dur seulement, je n'ai pas encore testé cela, car cela aurait une incidence sur la performance du serveur évidemment.

Il n'y a pas de charge sur les SSDS, ils sont montés mais non utilisés par aucun des processus.

Le RAM= est ECC aussi loin que je peux dire.

dmidecode -t 17 # dmidecode 2.11 SMBIOS 2.7 present. Handle 0x0023, DMI type 17, 34 bytes Memory Device Array Handle: 0x0022 Error Information Handle: Not Provided Total Width: 72 bits Data Width: 64 bits Size: 8192 MB Form Factor: DIMM Set: None Locator: P1-DIMMA1 Bank Locator: P0_Node0_Channel0_Dimm0 Type: DDR3 Type Detail: Synchronous Speed: 1600 MHz Manufacturer: Samsung Serial Number: 373A6427 Asset Tag: 9876543210 Part Number: M391B1G73QH0-CK0 Rank: 2 Configured Clock Speed: 1600 MHz

S'il vous plaît laissez-moi savoir si je peux donner des informations supplémentaires car je manque les idées que faire ensuite.

Dennis Nolte · Accepted Answer

Selon le support SuperMicro, le défaut réside avec le tableau:

Citation:

This board may need ECO 16238 update.

shodanshok · Answer

Ce que vous avez des expériences de serveur est essentiellement une renégociation SATA à une vitesse de liaison inférieure après un problème de communication avec les lecteurs.

Ces facteurs peuvent être au travail ici (commandé par une probabilité)

opérations iops de très haute latence (par exemple: causée par la collection de déchets du contrôleur SSD), entraînant un délai de commande SATA. Votre lecteur prend en charge la commande SATA Tinc? Si oui, essayez de courir fstrim /. Ça change quelque chose?
Bad Motherboard/Memory: Votre mémoire est-elle protégée par la CEC? Sinon, et si vous le pouvez, exécutez une séance de test étendue (2+ heures) MEMTEST86 +
incompatibilité des pilotes matériels/logiciels
Bad SATA Controller: Bien que très improbable, vous ne pouvez pas l'exclure complètement
Bad SATA Câbles/Drives: Comme tous les quatre disques vous donnent problème, c'est très peu probable