web-dev-qa-db-fra.com

Gel régulier sur le système Ryzen, 16.04 LTS et le nouveau noyau

J'utilise le processeur Ryzen 1700X et effectue des calculs. De temps en temps, le système se bloque lors de l'exécution de 16.04 LTS (Kernel 4.10). Le système ne redémarre pas. Il n'y a pas de signal à l'écran et le clavier + souris ne fonctionne pas. Je ne peux pas me connecter via SSH.

J'ai enregistré les fichiers kern.log et syslog pendant l'exécution de 16.04 LTS.

Après avoir lu plusieurs articles et lu des problèmes liés à la nouvelle architecture, j'ai décidé d'essayer un noyau plus récent et je suis passé à la version 4.12.8 (datée du 16 août 2017) à partir de ici . J'ai utilisé ceci post sur AskUbunt pour mettre à jour le noyau. Le système a bien démarré et mon application a fonctionné correctement pendant environ 10 heures maintenant.

Après environ 11 heures environ, le système est de nouveau tombé en panne, avec les mêmes messages dans syslogque ceux du noyau 4.10 sur 16.04 LTS, indiqués ci-dessous. {Fichiers de noyau et syslog, avec noyau 4.12: kern.log avec un nouveau noya et syslog avec un nouveau noya }

Aug 18 17:27:13 vriksha systemd[1]: Starting Cleanup of Temporary Directories...
Aug 18 17:27:13 vriksha systemd-tmpfiles[4661]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Aug 18 17:27:13 vriksha systemd[1]: Started Cleanup of Temporary Directories.
Aug 18 17:28:25 vriksha ntpd[1516]: 209.242.224.117 local addr 192.168.2.15 -> <null>
Aug 18 17:35:01 vriksha CRON[4821]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:35:40 vriksha systemd[1]: Started Session 5 of user vani.
Aug 18 17:42:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 17:42:18 vriksha sensord: Adapter: PCI adapter
Aug 18 17:42:18 vriksha sensord:   fan1: 1423 RPM
Aug 18 17:42:18 vriksha sensord:   temp1: 43.0 C
Aug 18 17:42:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 17:42:18 vriksha sensord: Adapter: ISA adapter
Aug 18 17:42:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 17:45:01 vriksha CRON[6142]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:55:01 vriksha CRON[6431]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:05:01 vriksha CRON[6607]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:09:52 vriksha kernel: [ 3459.913711] perf: interrupt took too long (2529 > 2500), lowering kernel.perf_event_max_sample_rate to 79000
Aug 18 18:12:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 18:12:18 vriksha sensord: Adapter: PCI adapter
Aug 18 18:12:18 vriksha sensord:   fan1: 1431 RPM
Aug 18 18:12:18 vriksha sensord:   temp1: 40.0 C
Aug 18 18:12:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 18:12:18 vriksha sensord: Adapter: ISA adapter
Aug 18 18:12:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 18:15:01 vriksha CRON[6785]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:17:01 vriksha CRON[6825]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Aug 18 18:25:01 vriksha CRON[6967]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

Après la dernière ligne du message ci-dessus (dans syslogname__), le système s'est figé. Je devais réinitialiser pour redémarrer à nouveau. Cela s'est reproduit avec le nouveau noyau.

Détails du système:

CPU-1700X Ryzen, No SMT, BIOS version- 3401 dated 12/08/2017 (AGESA 1071)
RAM 32 GB
AMD RX 470 GPU 
Lubuntu 16.04 LTS, LXDE with Openbox

Quelqu'un peut-il m'aider?.


Mises à jour

L'application que je suis en train d'utiliser n'utilise pas gccname__, g++.

  1. lspcioutput is here .

  2. dmesg | egrep 'drm|radeon' output is here

  3. (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1) est lié au package sysstatque j'ai supprimé. Le problème existe toujours.

  4. glxinfo | grep -i open La sortie pour le processeur graphique AMD RX 470 est donnée ci-dessous.

    glxinfo | grep -i open 
    OpenGL vendor string: X.Org
    OpenGL renderer string: Gallium 0.4 on AMD POLARIS10 (DRM 3.15.0 / 4.12.8-041208-generic, LLVM 4.0.0)
    OpenGL core profile version string: 4.5 (Core Profile) Mesa 17.0.7
    OpenGL core profile shading language version string: 4.50
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 3.0 Mesa 17.0.7
    OpenGL shading language version string: 1.30
    OpenGL context flags: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.1 Mesa 17.0.7
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.10
    OpenGL ES profile extensions:
    
  5. Je n'ai connecté qu'un seul écran à cet ordinateur. Les blocages ne surviennent que lorsque vous exécutez des tâches gourmandes en ressources CPU pendant de longues durées. (Je laisse le système avec son écran éteint, le contrôle et le vérifie à partir d'une connexion SSH. Après 5 à 6 heures environ, la connexion SSH devient indisponible. Après être revenu sur la machine, le déplacement de la souris et du clavier ne fait rien pour afficher l'écran. Une réinitialisation matérielle est nécessaire).

  6. Pour vérifier si cela est dû au GPU ou non, j'ai changé pour nVidia GTX 1080 pour lequel j'ai installé le pilote propriétaire et toujours sous la même charge, le système se bloque. Je suis revenu sur le processeur graphique AMD et le problème persiste. J'exclus ce comportement en raison du type de construction GPU. Pour la carte nVidia, la sortie glxinfo | grep -i open suit:

    OpenGL vendor string: NVIDIA Corporation
    OpenGL renderer string: GeForce GTX 1080/PCIe/SSE2
    OpenGL core profile version string: 4.5.0 NVIDIA 384.81
    OpenGL core profile shading language version string: 4.50 NVIDIA
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 4.5.0 NVIDIA 384.81
    OpenGL shading language version string: 4.50 NVIDIA
    OpenGL context flags: (none)
    OpenGL profile mask: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.2 NVIDIA 384.81
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.20
    OpenGL ES profile extensions:
    
    1. Mise à jour du BIOS vers la version 3401 (12/08/2017, AGESA 1071) et le problème persiste.
5
ankit7540

J'ai eu le même problème ... Ce que j'ai fait pour résoudre ce problème:

Performance:

Sudo cpufreq-set -r -g performance

Mettre au démarrage:

Sudo apt-get install cpufrequtils
echo 'GOVERNOR="performance"' | Sudo tee /etc/default/cpufrequtils
Sudo systemctl disable ondemand
4
Omar Palaming

J'ai un peu le même problème que toi. Ryzen 1800x

Je vous suggère de:

Réactiver SMT - Pas besoin de le désactiver.

Retournez au noyau actuel normal pour Ubuntu 16.04 qui est actuellement 4.4.0-93

Désactivez toutes les options "Global Energy State" dans le BIOS.

Désactivez également l’option cool n quiet.

Augmentez la tension de votre SoC à 1.1 pour des raisons de stabilité, ceci est recommandé. Comme indiqué dans cette vidéo: https://www.hardocp.com/news/2017/05/01/how_to_stabilize_your_AMD_ryzen_memory_cpu_overclocking_attempts

La recommandation ci-dessus est valable pour si vous sollicitez trop la CPU ou si vous êtes inactif.

Téléchargez les derniers pilotes AMD sur le site Web AMD pour votre carte. Vous pouvez également essayer les derniers pilotes Open Source via: "Pilotes supplémentaires" sous "Logiciels et mises à jour". Je recommande cette option en premier.

Avant de faire ce qui précède, réinitialisez simplement le BIOS par défaut et vérifiez s’il existe une version plus récente.

1
User08721