web-dev-qa-db-fra.com

Erreur de notification au journal: Journal Engagez E / S

J'ai des problèmes avec un serveur Dell 1950. J'installe Rhel 4.6 avec Oracle et un autre logiciel ici.

Je reçois au hasard un message d'erreur disant "Kernel: Erreur de validation de journal" sur ma session SSH et sur le moniteur, je suis connecté au serveur, je vois une erreur de défilement par celle-ci "EXTT3-FS Error (périphérique SDA5) dans start_transaction: Journal a aborti. "

Il est arrivé plusieurs fois mais jamais au même point pendant l'installation. En fait, cette dernière fois que le système était opérationnel et j'essayais simplement d'importer une base de données vers Oracle.

Cela s'est passé sur plusieurs disques durs, alors je suis sûr que ce n'est pas le problème. Cela me fait penser que le contrôleur RAID va mal.

Qu'en pensez-vous?

** METTRE À JOUR **

Assurez-vous que c'était un mauvais disque dur. J'ai jeté un autre lecteur sur le serveur et cela fonctionne depuis environ 48 heures sans problème.

9
jasondewitt

J'ai déjà vu ces erreurs avant, mais pas pendant le processus d'installation.

Cela signifie que le lecteur a suffisamment d'erreurs que le système d'exploitation le prit en mode lecture seule. Si vous pouviez trouver les journaux complètes, il y aurait probablement des erreurs d'E/S qui ont été récupérées et travaillées avant les erreurs de défaillance complète que vous avez vues. Quelque chose avec des blocs réels mentionnés.

C'est une erreur de système de stockage. C'est définitivement la carte RAID, les lecteurs du tableau RAID, les câbles de la carte aux lecteurs, le fond de panier Les lecteurs se connectent, la fente La carte RAID est branchée, l'alimentation des disques durs, ou autre chose dans entre la CPU et les blocs de stockage réels.

9
freiheit

Il pourrait être le contrôleur de raid qui va mal comme vous l'avez dit (essayez une réserve si vous en avez un.) Il pourrait s'agir du pilote du contrôleur (vérifiez les pilotes alternatifs si disponible, même si la performance est pire, il est bon d'avoir un point de référence. .) Ce pourrait être le noyau (moins probable que ce soit dans Rhel, il est assez bien testé.) Cela pourrait être mauvais RAM Making up the block cache.

Un problème matériel est la cause la plus probable, cependant, sur la base du comportement d'erreur apparemment aléatoire.

2
Mihai Limbăşan

Trois possibilités viennent à l'esprit:

  1. Il y a des problèmes de mémoire (ils causent souvent des crash "aléatoires"). Si vous avez une RAM ECC là-bas, alors il est évidemment moins probable.

  2. Il y a un problème avec le bus. J'ai eu le même problème avec un contrôleur APIC cassé sur une carte mère Tyan Dual Opteron quelques années de retour. Il y avait d'autres entrées de journalisation qui y sont allongées, mais la majeure partie des symptômes était une corruption aléatoire sur les lecteurs de disques avec des remonts automatiques en lecture seule. Dans mon cas, je savais que ce n'était pas lié au disque car il s'agissait d'une boîte de raid de FC externe et c'était bien.

  3. Le contrôleur RAID est superposé.

Ceci est dans l'ordre que je considérerais les problèmes.

Vérifiez que le disque n'est pas complet - en particulier la partition racine. Utilisez DF pour voir l'utilisation du disque système des fichiers:

df -h

Rechercher des partitions à proximité ou égale à 100% d'utilisation

2
Peter H