web-dev-qa-db-fra.com

Le processus nvidia-smi se bloque et ne peut pas non plus être tué avec SIGKILL

Je suis sur Ubuntu 14.04, boîte à outils CUDA 8, version du pilote 367.48.

Quand je donne nvidia-smi commande, il se bloque juste indéfiniment. Lorsque je me reconnecte et essaie de tuer ce nvidia-smi processus, avec kill -9 <PID> par exemple, il n'est tout simplement pas tué. Si je donne un autre nvidia-smi commande, je trouve les deux processus en cours d'exécution - bien sûr lorsque vous vous connectez à partir d'un autre shell, car cela reste bloqué comme auparavant.

Peut-il s'agir d'un problème lié au pilote? Ce n'est pas le plus récent, mais tout de même assez récent ..

18
bio

J'ai résolu ce problème en faisant à chaque démarrage

Sudo nvidia-smi -pm 1

La commande ci-dessus active le mode de persistance. Ce problème affecte les pilotes nvidia depuis plus de deux ans, mais ils ne semblent pas intéressés à le résoudre. Il semble être lié à un problème de gestion de l'alimentation, après un peu de démarrage dans le système d'exploitation, si le nvidia-persistenced le service a le no-persistence-mode option activée, le GPU économise de l'énergie et nvidia-smi la commande se bloque en attendant quelque chose lui redonnant le contrôle sur l'appareil

13
lurscher

Compte tenu de votre situation particulière, j'essaierais de le réinstaller, comme proposé bio.

Avez-vous essayé de faire Sudo kill -9 <PID>? Vous l'avez probablement fait, mais vous l'avez toujours publié. Ou, peut-être en faisant Sudo kill -15 <PID> pour y mettre fin. Il semble que votre pilote soit coincé dans un signal 1 raccrochage compte tenu de ce que vous nous avez dit.

Il semble étrange que nvidia-smi se bloquerait spontanément lors de l'exécution, mais le problème peut être à l'origine du fait de ne pas être installé correctement ou de ne pas être exécuté avec un accès superutilisateur.

Avez-vous essayé d'utiliser:

service nvidia-smi status pgrep nvidia-smi ps -aux | grep nvidia-smi

pour obtenir son état actuel?

Quoi qu'il en soit, j'espère que cela vous aidera. J'essaierais de désinstaller et de réinstaller ou d'utiliser Sudo apt --fix-broken pour essayer de réparer les packages/pilotes cassés.

À votre santé!

1