DIFPHERING MPT2SAS Syslog Messages

Question

Sommaire

J'ai reçu ces messages cryptiques dans Syslog depuis que j'ai installé un nouveau matériel et je ne peux pas comprendre quel est le problème, si c'est sérieux, ou quoi faire à ce sujet.

Ils proviennent de la nouvelle HBA SATA et ils suivent un motif. Je vais obtenir plusieurs des premiers messages suivis de plusieurs du deuxième message 5-30 secondes plus tard. Ils entrent dans des blobs qui sont tous connectés la même seconde et la quantité exacte de chacune varie entre environ 2 et 35. Il peut s'agir de minutes ou d'heures entre les apparitions des entrées.

Exemple de deux messages:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303) Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Il est toujours toujours toujours 0x31120303 suivi de 0x31110D01.

mPT2SAS est le pilote de l'adaptateur bus hôte SATA que j'utilise, mais le contenu d'erreur est trop cryptique. Cela ne me dis pas quel est le problème, quel disque ou port il est avec ou à quel point il est grave.

Matériel

Supermicro x9scl avec A Xeon E3-122 et 8 Go de RAM.

LSI SAS2008 Supermicro AOC-USAS2-L8I SAS/SATA HBA connectée à un ensemble de plateaux de disque supermicro CSE-M35T-1B . Il a trois digitals occidentaux WD30EZRX et deux segate ST3000DM001 branché dessus. Tous les lecteurs 3 To (exactement le même nombre de secteurs réellement). Aucun extension de port utilisé.

Les HBA, les plateaux de disque et 4 des lecteurs sont nouveaux. L'un des WD30EZRXES est depuis des mois, n'a aucun problème. Avait-le connecté au contrôleur Intel Sata intégré précédemment, le déplacé dans les baies de lecteur avec cette nouvelle configuration.

Avait des problèmes avec l'HBA nécessitant une réinitialisation fréquemment et d'obtenir une performance très terrible. Mise à jour du firmware/BIOS à "Phase 12", la dernière version disponible de SuperMicro et a changé le type à celui-ci (c'est-à-dire le type de passthrough de IR pour RAID intégré depuis que j'allais utiliser tous les RAID logiciels): 2008it12.fw. Cette mise à jour a effacé toutes les premières questions et je n'ai pas commencé à obtenir les messages ci-dessus avant la plus tard (voir ci-dessous).

Les quatre premiers disques que j'ai ajoutés sont tous sur le premier port SFF-8087 (divisé à 4 câbles SATA). Le dernier disque que j'ai ajouté est sur l'autre port, si cela importe.

Le seul autre disque du système contient le système d'exploitation et est un SSD Intel Intel 80 Go enregistré dans le contrôleur SATA intégré.

Logiciel

Ubuntu 11.10 (Oneiric). Linux 3.0.0-14-Server X86_64. Utilisation du pilote MPT2SAS fourni avec le système d'exploitation.

Essayer de construire un tableau RAID6 à l'aide de Linux MD avec ces cinq disques. Commencé avec un tableau dégénéré de 3 disques, les deux segates et l'un des nouveaux lecteurs de WD. C'était rapide et s'est très bien passé, aucun message dans les journaux après que j'ai fait la mise à jour du firmware. Pendant ce temps, j'utilise toujours l'ancien disque WD du port 0 du même contrôleur.

A ajouté l'autre nouveau disque WD à la matrice. Rebuild a commencé et je reçois actuellement ces messages dans Syslog. Je ne sais pas combien de temps il est censé prendre pour ajouter un disque à la matrice, mais la durée estimée (CAT/PROC/MDSTAT) varie de milliers de dizaines de milliers de minutes, beaucoup plus longtemps que les 3 premiers disques. Je comprends que les disques WD sont beaucoup plus lents; J'ai des modèles différents pour réduire les chances de plusieurs défaillances de disque et c'étaient les deux modèles 3 TTo les moins chers.

Remarques

Smart ne signalent aucun problème sur des disques. Il n'y a pas d'erreurs enregistrées sur des disques et aucune des statistiques de défaillance ne sont n'importe où près de seuil.

Les messages enregistrés commencés uniquement à apparaître après que j'ai ajouté le dernier disque, ce qui suggère que l'on peut avoir un problème, mais je n'ai rien d'autre pointant vers cela.

J'ai trouvé un fichier d'en-tête qui semble correspondre aux messages de journalisation de ce pilote. Le premier message semble être un abort (code 12) pour un "sous-code" 0303 qui n'est pas répertorié. Le deuxième message est une réinitialisation (code 11) pour une raison qui n'est pas non plus claire. Si je pouvais déterminer quoi 0303 et 0D01 signifie que cela serait vraiment utile.

Je sais que 4 disques dans un disque 5 RAID6 est un tableau incomplet. Je prévois de copier le contenu de l'ancien disque sur la matrice une fois qu'il finit d'intégrer le 4ème disque, puis ajoutez également l'ancien disque à la matrice.

Michael Hampton · Answer

Wow, difficile.

Ceci Semble indiquer que 0x31120303 est une réinitialisation de bus en raison de l'un de vos appareils sous charge. Il dit également que vous n'avez pas besoin de vous en soucier. (Haha, oui droite.)

Ceci indique que ces messages de journal se produisent car l'un de vos appareils prend trop de temps pour répondre aux commandes. Ceci dit la même chose, et l'indique également qu'il se produit sous une charge importante.

Bien que ce n'était pas une réponse complète, j'espère que vous allez vous diriger dans une direction utile.

Baruch Even · Answer

Cela signifie que vous avez une erreur sur le disque, il s'agit d'un disque SATA dans A SAS de LSI et en raison de l'erreur, toutes les demandes en suspens ont été abandonnées.

Dans la plupart des cas, vous avez une erreur moyenne sur le disque qui est la gâchette de cette erreur. Cette erreur par elle-même ne signifie pas une erreur moyenne et vous devez vérifier les journaux pour d'autres astuces pour trouver quelle est la source de la défaillance du disque d'origine.

Version légèrement plus élaborée à: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/