web-dev-qa-db-fra.com

Décryptage des dommages matériels à partir des informations du capteur

Récemment, mon système a souffert de ce qui semble être de nombreux défauts matériels. Plus important encore, mon système a apparemment surchauffé (sous une charge moyenne) et s'est arrêté brutalement. Un facteur que j'ai déjà découvert est que le ventilateur arrière ne tourne pas. Il semble juste être cassé parce que les lectures de tension (avec un voltmètre, pas des capteurs) sur ses broches indiquent 12V. Je soupçonne cependant que le ventilateur n'est pas mon seul problème.
Comment puis-je déterminer l'étendue des dommages matériels à l'aide d'acpi, de capteurs ou d'autres outils? Je reçois de nombreuses mauvaises lectures et je ne sais pas si elles correspondent à des pannes matérielles, à des capteurs inexistants ou à un logiciel de mesure simplement mal configuré.

Capteurs:

sensors
coretemp-isa-0000
Adapter: ISA adapter
ERROR: Can't get value of subfeature temp1_input: Can't read
Core 0:       +0.0°C  (high = +86.0°C, crit = +100.0°C)  ALARM  

coretemp-isa-0001
Adapter: ISA adapter
ERROR: Can't get value of subfeature temp1_input: Can't read
Core 1:       +0.0°C  (high = +86.0°C, crit = +100.0°C)  ALARM  

f71882fg-isa-0a00
Adapter: ISA adapter
+3.3V:       +3.36 V
in1:         +1.22 V  (max =  +2.04 V)   
in2:         +1.02 V
in3:         +0.86 V
in4:         +0.96 V
in5:         +1.10 V
in6:         +0.90 V
3VSB:        +3.36 V
Vbat:        +3.04 V
fan1:        868 RPM
fan2:          0 RPM  ALARM
fan3:          0 RPM  ALARM
fan4:          0 RPM  ALARM
temp1:       +89.0°C  (high = +85.0°C, hyst = +81.0°C)  ALARM  
                      (crit = +100.0°C, hyst = +96.0°C)  sensor = transistor
temp2:       +33.0°C  (high = +85.0°C, hyst = +81.0°C)  
                      (crit = +100.0°C, hyst = +96.0°C)  sensor = transistor
temp3:         FAULT  (high = +70.0°C, hyst = +68.0°C)  
                      (crit = +85.0°C, hyst = +83.0°C)  sensor = transistor

et sans aide:

acpi -V
No support for device type: power_supply
No support for device type: power_supply
Cooling 0: Processor 0 of 0
Cooling 1: Processor 0 of 7

En utilisant le widget plasma KDE, je peux voir que temp1 oscille entre 89 et 92 tandis que temp2 lit une constante 33 (c'est-à-dire qu'elle est cassée). Je n'ai jamais vraiment prêté beaucoup d'attention à cela jusqu'à ce que mon ordinateur commence à ralentir anormalement sous des charges moyennes et à mourir sommairement. Puis j'ai vu que dmesg était jonché de

[ 1561.568839] CPU1: Core temperature above threshold, cpu clock throttled (total events = 1)
[ 1561.568857] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
[ 1800.040047] Machine check events logged

Je n'ai pas beaucoup d'expérience dans le déchiffrement des relevés de température ou dans la détection générale de mauvais matériel - est-ce que tout ce phénomène pourrait vraiment être expliqué par un fan mort? J'ai enlevé l'un des panneaux de la boîte (qui semble offrir à peu près autant de ventilation supplémentaire que le petit ventilateur de 4 pouces) et les ventilateurs CPU, PSU et avant de la boîte fonctionnent tous sur un cycle de service complet, mais cela ne semble pas faire de différence. Je reçois toujours des lectures à très haute température et des arrêts fréquents. Que puis-je faire?

2
mmdanziger

Ce n'est pas une question ubuntu, cependant, j'essaie de vous aider:

  • l'ouverture du boîtier du PC aggrave généralement la situation, cependant, vous pouvez utiliser un grand ventilateur et le placer du haut du côté ouvert

  • les refroidisseurs sales sont généralement un problème - enlevez toute la poussière

  • meilleure idée, mais vous avez besoin d'expérience: retirez le refroidisseur de processeur, nettoyez tout et remontez-le avec peu (pas trop) de crème thermo-composée. Assurez-vous que le refroidisseur est fixé sur le processeur (peut-être même que le clip s'est libéré au fil du temps.

1
Michael K