web-dev-qa-db-fra.com

Exception de liaison de réinitialisation dure Emask 0x50 Sac 0x0 SerR 0x4090800 Action 0xE Frozen

Situation suivante:

Un serveur productif Linux Debian 7 avec noyau 3.2.0-4-AMD64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

Fabricant: Supermicro Nom du produit: X10SLL-F Version: 1.02

Contrôleur SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2x SSD, 2x HDD

chaque lecteur peut faire SATA Rev3 (6,0 Go/s)

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       Toshiba THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       Toshiba THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

Les messages du noyau suggèrent (à moi au moins) un problème avec les 4 disques qui mènent à croire que c'est le contrôleur SATA qui pourrait être en faute.

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

Ce que j'ai déjà trouvé (ou croyez avoir compris)

Les commandes SECURITY FREEZE LOCK Et DEVICE CONFIGURATION OVERLAY Ne sont pas importants pour le problème.

Tout en lisant environ 20 bugReports et beaucoup de documentations, quelques-uns liés certains ont suggéré de désactiver la NCQ, ce que j'ai fait.

Premièrement pour un périphérique, après avoir attendu 1 jour pour vérifier si l'erreur le répète se passe à nouveau et que je l'ai désactivée pour tous les 4 périphériques

echo "1" >/sys/block/sdc/device/queue_depth

Aucun changement évident dans la situation.

https://ata.wiki.kernel.org/index.php/libata_error_mesages

https://wiki.archlinux.org/index.php/solid_state_drives#resolving_ncq_errors

D'autres suggèrent un câble SATA ou même une incompatibilité entre le tableau + des lecteurs.

Cependant, même si je semble avoir le problème sur un lecteur et que cela remplit tous les 4, ou avoir le problème directement sur tous les 4 périphériques, je suis incapable d'identifier davantage le problème.

Comme il s'agit d'un serveur de production de mise en place de ce serveur pour la maintenance (AKA BIOS/Kernel Param Modifications) est possible, mais j'aime empêcher cela si possible.

Selon la Hoster, cela pourrait être une gestion de l'électricité:

https://bugzilla.kernel.org/show_bug.cgi?id=74961https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_Host/host0/link_power_management_policy 

Avant le changement, cela a été réglé sur max_performance.

Cela n'a pas aidé non plus.

Les valeurs intelligentes des HDDS/SDDS sont ok, rien de trop évident.

Notez que la valeur UDMA semble être 33 maintenant seulement.

Au démarrage du serveur, il s'agissait des valeurs de vitesse SATA Link:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

La situation peut se produire sur une charge élevée sur le disque dur seulement, je n'ai pas encore testé cela, car cela aurait une incidence sur la performance du serveur évidemment.

Il n'y a pas de charge sur les SSDS, ils sont montés mais non utilisés par aucun des processus.

Le RAM= est ECC aussi loin que je peux dire.

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

S'il vous plaît laissez-moi savoir si je peux donner des informations supplémentaires car je manque les idées que faire ensuite.

8
Dennis Nolte

Selon le support SuperMicro, le défaut réside avec le tableau:

Citation:

This board may need ECO 16238 update.
3
Dennis Nolte

Ce que vous avez des expériences de serveur est essentiellement une renégociation SATA à une vitesse de liaison inférieure après un problème de communication avec les lecteurs.

Ces facteurs peuvent être au travail ici (commandé par une probabilité)

  1. opérations iops de très haute latence (par exemple: causée par la collection de déchets du contrôleur SSD), entraînant un délai de commande SATA. Votre lecteur prend en charge la commande SATA Tinc? Si oui, essayez de courir fstrim /. Ça change quelque chose?
  2. Bad Motherboard/Memory: Votre mémoire est-elle protégée par la CEC? Sinon, et si vous le pouvez, exécutez une séance de test étendue (2+ heures) MEMTEST86 +
  3. incompatibilité des pilotes matériels/logiciels
  4. Bad SATA Controller: Bien que très improbable, vous ne pouvez pas l'exclure complètement
  5. Bad SATA Câbles/Drives: Comme tous les quatre disques vous donnent problème, c'est très peu probable
4
shodanshok