web-dev-qa-db-fra.com

Erreur dans le cluster SLURM - Détection de 1 événement (s) oom-kill: comment améliorer les travaux en cours d'exécution

Je travaille dans un cluster SLURM et j'exécutais plusieurs processus en même temps (sur plusieurs fichiers d'entrée), et j'utilisais le même script bash.

À la fin du travail, le processus a été tué et c'est l'erreur que j'ai obtenue.

slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup.

Je suppose qu'il y a un problème de mémoire. Mais comment en savoir plus? N'ai-je pas fourni suffisamment de mémoire? ou en tant qu'utilisateur, je demandais plus que ce à quoi j'ai accès?

Toute suggestion?

10
CafféSospeso

Ici OOM signifie "Out of Memory". Lorsque Linux manque de mémoire, il "tue" un processus pour maintenir les processus critiques en cours d'exécution. Il semble que slurmstepd ait détecté que votre processus a été tué. Oracle a ne belle explication de ce mécanisme.

Si vous aviez demandé plus de mémoire que ce qui vous était autorisé, le processus n'aurait pas été alloué à un nœud et le calcul n'aurait pas commencé. Il semble que vous ayez besoin de demander plus de mémoire.

8
Kyle