web-dev-qa-db-fra.com

RAM teste de manière incohérente - quel est le coupable le plus probable? (c.-à-d. que devrais-je dépenser de l'argent pour le remplacement)

  • Carte mère: GA-B85M-DS3H-A
  • CPU: Core i5 4430
  • RAM: PNY XLR8 DDR3 32 Go (4x8 Go) 1600 MHz (MD32768K4D3-1600-X9)
  • Alimentation: EVGA 500 W1 80+

Le problème

Avec tous les 32 Go de RAM installés, le système échoue systématiquement avec MemTest86 + 6.2. L'échec se produit toujours lors du premier passage et les erreurs atteignent rapidement des millions d'erreurs. Tenter d'exécuter Windows entraîne des redémarrages aléatoires et des erreurs Stop (comme on pouvait s'y attendre avec les erreurs RAM.).

Ce que j'ai essayé

  • Testez un seul module PNY de 8 Go dans le connecteur DIMM1. Termine avec succès 4 passes de MemTest.
  • Testez un seul module PNY de 8 Go dans le connecteur DIMM2. Termine avec succès 4 passes de MemTest.
  • Testez un seul module PNY de 8 Go dans le connecteur DIMM3. Termine avec succès 4 passes de MemTest.
  • Testez un seul module PNY de 8 Go dans le connecteur DIMM4. Termine avec succès 4 passes de MemTest.
  • Testez les quatre DIMM PNY 8 Go séparément, individuellement, dans le connecteur DIMM1. Tous les modules réussissent 4 passes de MemTest.
  • Testez deux modules PNY de 8 Go dans les connecteurs DIMM1 et DIMM2. Termine avec succès 4 passes de MemTest.
  • Testez deux modules PNY de 8 Go dans les supports DIMM3 et DIMM4. Termine avec succès 4 passes de MemTest.
  • Testez la carte mère avec quatre barrettes DIMM de 2 Go connues dans tous les sockets. Termine avec succès 4 passes de MemTest.
  • Échangez la commande des PNY DIMM dans les sockets. Pas de changement - des erreurs MemTest se produisent toujours.
  • Augmentez la tension de la carte mère RAMde 1,5V à 1,65V. Pas de changement - des erreurs MemTest se produisent toujours.
  • Jouez avec différentes combinaisons des paramètres manuels RAM dans l'utilitaire de configuration - activation/désactivation du profil XMP, définition du préréglage "stabilité accrue", etc. Pas de modification, erreurs MemTest toujours se produire.

Je pense que je peux sans risque exclure les mauvaises RAM et les mauvaises RAM sockets. Le temps seulement auquel les tests MemTest échouent est celui où les quatre modules de 8 Go sont installés simultanément.

J'ai mesuré les tensions provenant du bloc d'alimentation et tout semble stable même avec les quatre clés installées.

Au moment où j'écris ces lignes, j’ai essayé une option de dernier recours consistant à réduire manuellement la vitesse RAM à 1066 MHz dans le BIOS. Jusqu'ici, MemTest a effectué un passage et en est au second sans erreur. (Tous les tests ci-dessus ont été effectués à la vitesse native de 1600 MHz RAM.) Cela peut me permettre d’utiliser le système, même si la vitesse RAM est légèrement plus lente, mais cela ne semble pas être le cas. une solution permanente.

Chaque fois que des erreurs MemTest se produisent, elles se produisent toujours exactement au même endroit sur le bus d’adresse 64 bits:

Bit Error Mask: 00000000FF000000

En outre, des erreurs ne se produisent JAMAIS sous la barrière des 4 Go. En d'autres termes, toutes les erreurs se produisent dans l'espace d'adressage compris entre 4 Go et 32 ​​Go.

J'en déduis qu'il s'agit d'une sorte d'étrange interaction ou d'un problème de synchronisation avec le CPU et la RAM et la carte mère, car les erreurs sont très cohérentes, ne se produisent que dans une configuration spécifique, semblent être atténuées par ralentir la RAM, et se produisent uniquement au-dessus de la barrière de 4 Go. Ma question est la suivante: Est-il plus probable que mon processeur ou ma carte mère soit le coupable?

J'avais l'intention de mettre à niveau cette machine vers un Core i7-4790K, donc si le processeur est probablement le coupable (je sais que le contrôleur de mémoire est sur le processeur dans ces modèles plus récents), cela fonctionne bien car je prévois de mettre à niveau de toute façon, mais je me demande s’il est possible que la carte mère elle-même fasse également partie du problème. i.e. Je ne voudrais pas dépenser de l'argent sur le processeur i7 uniquement pour rencontrer exactement le même problème et découvrir que je dois également remplacer la carte mère ...

Conseil?


EDIT: La vitesse plus lente RAM a toujours généré des erreurs, mais seulement une fois que le test a atteint la troisième passe. J'ai redémarré le test avec une seule CPU active juste pour tester une interaction sur la CPU elle-même.

20
fdmillion

Cela ne semble pas qu'un composant est défectueux, vous utilisez plutôt une combinaison incompatible.

Le fait de disposer de plusieurs sockets sur le même bus mémoire augmente la capacité de chaque ligne de données et ralentit le temps de montée, ce qui peut provoquer des transitions tardives et une mauvaise détection. Ce phénomène est connu des ingénieurs électriciens sous le nom de "fan-out".

Ceci est encore compliqué à cause de la sortance interne à un module de mémoire. Le nombre et la topologie des unités DRAM sur le module, appelé "rang", affecteront le nombre de modules que vous pourrez connecter en parallèle.

Les cartes mères de serveurs prenant en charge un grand nombre de sockets mémoire ont en fait besoin de mémoire tampon, qui utilise un réseau de tampons en cascade pour limiter la sortie (et donc la capacité) vue par chacun. Il y a un retard causé par les tampons eux-mêmes, mais il augmente seulement logarithmiquement avec le nombre de charges, alors que pour une mémoire non tamponnée, la capacité augmente linéairement.

Wikipedia en parle: https://en.wikipedia.org/wiki/Memory_rank

Certains manuels de cartes mères appellent ce genre de chose. Pour d'autres, vous pouvez déduire les informations des listes de compatibilité RAM. Par exemple, la carte mère ASUS Z170-A montre que le double rang (appelé DS = double face dans le manuel) ne peut être utilisé que dans deux emplacements à la fois sur cette carte, par opposition à la possibilité d'utiliser quatre barrettes DIMM à rang unique à la fois.

enter image description here

18
Ben Voigt

Cela ressemble à un problème dans le contrôleur de mémoire intégré du processeur .

Dans les systèmes modernes, les cartes mères ne jouent pas vraiment un rôle dans la gestion de la mémoire, elles ne font que fournir un chemin entre les modules de mémoire et le processeur. La mémoire est directement connectée au processeur afin de minimiser la latence. le " northbridge " qui connecte la mémoire au processeur des systèmes plus anciens fait maintenant partie du processeur lui-même. (Le microprogramme ou PCH peut contrôler le fonctionnement du processeur par le processeur, mais il n’a aucun sens de provoquer des erreurs de bits du type que vous décrivez, car c’est finalement la responsabilité du processeur.) Par conséquent, la toute première chose que j’ai d suspect dans une situation comme celle-ci est un IMC défectueux.

En fait, je serais très surpris que la carte mère ou le microprogramme du système soient à l'origine des problèmes que vous rencontrez.

9
bwDraco

Je vois de mauvaises critiques pour le BIOS sur cette carte mère. Je commencerais par rechercher une mise à jour du BIOS. Ne lésinez jamais sur la carte mère.

4
Atoadaso

Il est possible que le RAM soit également défectueux, même s'il ne semble pas l'être. J'ai récemment eu un problème avec mon serveur domestique impliquant un incident fatal avec du thé glacé ...

Je suis passé par le processus complet de remplacement de chaque partie individuellement (2 processeurs, mobo, alimentation et 2 banques de 16 Go de RAM) et tout a bien fonctionné lorsque j’utilisais une seule banque de RAM avec un seul processeur (sauf 1 processeur qui était grillé).

Quelle que soit la configuration que j'ai utilisée, elle fonctionnait toujours avec un seul processeur et une seule banque de RAM (que ce soit 16 Go ou 32 Go de RAM). ), mais quand j’ai mis en place le 2e processeur et que j’ai divisé le RAM pour qu’il soit de 16 Go par banque, le serveur n’a pas démarré.

Ce n’est que lorsque j’ai complètement remplacé une banque de RAM que celle-ci a finalement démarré et a fonctionné correctement.

tl; dr : Comme @moab l'a déclaré dans son commentaire, vous ne pouvez jamais en être certain tant que vous n'avez pas testé tous les composants d'un système compatible.

1
Taegost