Anomalie #11
ouvertLancement de job
0%
Description
Bonjour,
En essayant d’exécuter un job sur le HPC avec 12 nodes, celui-ci est passé par plusieurs états “CF” dans la queue Slurm, puis la simulation a crashé (elle ne s’est jamais lancée).
Depuis, j’essaie de lancer le même cas avec moins de nodes (3,5...), mais le job est immédiatement supprimé après soumission : il n’apparaît pas dans la queue et rien ne se passe dans mon cas OpenFOAM.
Ce problème est arrivé deux fois avec plusieurs jours entre les deux essais.
Je vous joins le script du scheduler. Je n'ai pas de messages d'erreurs le message job submited s'affiche mais aucun job n'apparait dans la queue. Aussi après le premier bug (premier CF se termine puis PD puis CF puis plus rien) je n'ai plus accès aux commandes comme 'sinfo'
Auriez-vous une idée de ce qui pourrait provoquer ce comportement ?
Merci d'avance,
Bien à vous,
Mathurin
Fichiers
Mis à jour par Minerva Mac Gonagall il y a 24 jours
- Statut changé de Nouveau à En cours
Bonjour Mathurin,
Si je regarde les jobs que tu as lancé, ils se sont tous bien exécutés.
Voici un exemple:
$ sacct --format=User%10,JobID%20,Jobname%10,partition,state%20,time,start,end,elapsed,MaxRss,MaxVMSize,ReqMem,nnodes,ncpus,nodelist%60,AllocTRES%60,AveRSS,submit,ConsumedEnergy%30,AveCPUFreq,TresUsageOutTot%100 --units=G --duplicates -j 9696
User JobID JobName Partition State Timelimit Start End Elapsed MaxRSS MaxVMSize ReqMem NNodes NCPUS NodeList AllocTRES AveRSS Submit ConsumedEnergy AveCPUFreq TRESUsageOutTot
---------- -------------------- ---------- ---------- -------------------- ---------- ------------------- ------------------- ---------- ---------- ---------- ---------- -------- ---------- ------------------------------------------------------------ ------------------------------------------------------------ ---------- ------------------- ------------------------------ ---------- ----------------------------------------------------------------------------------------------------
mzoute 9696 Sim gryffondor COMPLETED 04:00:00 2025-11-10T13:40:27 2025-11-10T13:40:28 00:00:01 40G 5 160 c[004-007,009] billing=160,cpu=160,mem=40G,node=5 2025-11-10T13:40:26 0
9696.batch batch COMPLETED 2025-11-10T13:40:27 2025-11-10T13:40:28 00:00:01 0.00G 0.14G 1 32 c004 cpu=32,mem=8G,node=1 0.00G 2025-11-10T13:40:27 0 0.00G energy=0,fs/disk=0.00G
9696.extern extern COMPLETED 2025-11-10T13:40:27 2025-11-10T13:40:28 00:00:01 0.00G 0.14G 5 160 c[004-007,009] billing=160,cpu=160,mem=40G,node=5 0.00G 2025-11-10T13:40:27 0 3.00G energy=0,fs/disk=0
Effectivement, le job est en statut COMPLETED mais l'exécution n'a duré qu'une seconde donc il faut regarder dans le fichier de sortie du job.
Je vois que dans ton script de soumission tu envoies les messages de sortie et d'erreur dans le fichier sortie.log qui devrait se trouver dans le chemin que tu as défini dans la directive chdir donc dans le répertoire /nfs/home/mzoute/ESCOBAR.
As-tu des messages d'erreurs à l'intérieur?
Par ailleurs, si tu lances la commande sinfo, est-ce que tu obtiens bien ceci?
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
gryffondor up 2-00:00:00 33 idle~ c[001-033]
serpentard up 2-00:00:00 33 idle~ c[001-033]
serdaigle up 2-00:00:00 33 idle~ c[001-033]
poufsouffle up 2-00:00:00 33 idle~ c[001-033]
longq up 10-00:00:0 33 idle~ c[001-033]
cracmols up 2-00:00:00 20 idle~ c[013-032]
visu up 1-00:00:00 2 idle gpu[01-02]
gpu up 2-00:00:00 1 idle gpu03
Alexandra
Mis à jour par Mathurin Zoute il y a 24 jours
Bonjour,
Les fichiers .log ne se créent pas. Ce pourquoi je ne comprends pas la cause du problème. Le même type de comportement est aussi apparu chez mon collègue Jules Moulaine.
Si je lance sinfo j'obtiens effectivement ceci mais après le bug de lancement la commande sinfo ne fonctionne plus.
Bien à vous
Mathurin
Mis à jour par Minerva Mac Gonagall il y a 24 jours
Pourtant, je vois bien un fichier de log dans votre home qui a été créé à la fin de l'exécution de votre dernier job:
$ ls -lart /nfs/home/mzoute/ESCOBAR
total 29
drwx------. 6 mzoute gryffondor 10 10 nov. 13:39 ..
drwxr-xr-x. 2 mzoute gryffondor 3 10 nov. 13:39 .
-rw-r--r--. 1 mzoute gryffondor 415 10 nov. 13:40 sortie.log
Alexandra
Mis à jour par Minerva Mac Gonagall il y a 22 jours
Bonjour,
Est-ce que vous avez trouvé un message d'erreur?
Par ailleurs, j'ai vu qu'il vous manquait des fichiers d'environnement (.bashrc, .bash_profile, ...) dans votre home.
Je les ai remis, vous ne devriez plus avoir les problèmes avec sinfo.
Alexandra
Mis à jour par Argus Rusard il y a 22 jours
Bonjour, ta réponse par mail ne fonctionnera pas. Il faut que tu répondes au ticket dans l'interface web.
Pierre
Mis à jour par Mathurin Zoute il y a 19 jours
Bonjour,
J’arrive désormais à lancer des jobs merci beaucoup pour votre aide.
Cependant avec mes collègues nous avons remarqué des gros ralentissements lors de l’exécution de nos codes (passant de 0.1s/ itération à 20s / itération) sans raison apparente. Auriez vous une idée d'où cela peu provenir ?
Enfin nous avons du mal à comprendre le meilleur setup entre peu de tasks par noeuds sur plus de noeuds ou beaucoup de tasks par noeuds sur peu de noeuds. Auriez vous des retours d’expérience ou des conseils à nous donner sur ce point s’il vous plaît ?
Merci encore,
Bien à vous,
Mathurin
Minerva Mac Gonagall a écrit (#note-4):
Bonjour,
Est-ce que vous avez trouvé un message d'erreur?
Par ailleurs, j'ai vu qu'il vous manquait des fichiers d'environnement (.bashrc, .bash_profile, ...) dans votre home.
Je les ai remis, vous ne devriez plus avoir les problèmes avec sinfo.Alexandra
Mis à jour par Argus Rusard il y a 18 jours
Bonjour,
Mathurin Zoute a écrit (#note-6):
Bonjour,
J’arrive désormais à lancer des jobs merci beaucoup pour votre aide.Cependant avec mes collègues nous avons remarqué des gros ralentissements lors de l’exécution de nos codes (passant de 0.1s/ itération à 20s / itération) sans raison apparente. Auriez vous une idée d'où cela peu provenir ?
Euyh, non. Je ne connais pas OpenFoam...
Enfin nous avons du mal à comprendre le meilleur setup entre peu de tasks par noeuds sur plus de noeuds ou beaucoup de tasks par noeuds sur peu de noeuds. Auriez vous des retours d’expérience ou des conseils à nous donner sur ce point s’il vous plaît ?
En général, c'est mieux de demander moins de nœuds. Dans un cluster utilisé, on peut avoir moins de temps d'attente quand on disperse les tâches sur plus de nœuds mais ça peut causer des problèmes selon le type de calcul qu'on fait.
Pierre
Mis à jour par Mathurin Zoute il y a 18 jours
Argus Rusard a écrit (#note-7):
Bonjour,
Mathurin Zoute a écrit (#note-6):
Bonjour,
J’arrive désormais à lancer des jobs merci beaucoup pour votre aide.Cependant avec mes collègues nous avons remarqué des gros ralentissements lors de l’exécution de nos codes (passant de 0.1s/ itération à 20s / itération) sans raison apparente. Auriez vous une idée d'où cela peu provenir ?
Euyh, non. Je ne connais pas OpenFoam...
Enfin nous avons du mal à comprendre le meilleur setup entre peu de tasks par noeuds sur plus de noeuds ou beaucoup de tasks par noeuds sur peu de noeuds. Auriez vous des retours d’expérience ou des conseils à nous donner sur ce point s’il vous plaît ?
En général, c'est mieux de demander moins de nœuds. Dans un cluster utilisé, on peut avoir moins de temps d'attente quand on disperse les tâches sur plus de nœuds mais ça peut causer des problèmes selon le type de calcul qu'on fait.
Pierre
Bonjour,
Cela ne provient pas d'openfoam car ça n'arrive pas lorsque l'on lance sur nos pc persos
Mis à jour par Argus Rusard il y a 18 jours
Je comprends bien mais je ne peux pas vous aider.
Mis à jour par Argus Rusard il y a 18 jours
Je précise: nous n'avons pas de connaissance sur openfoam, c'est donc difficile pour nous de vous aider sans précision supplémentaire.
Est-ce toujours le même cript de lancement? Quels numéros de jobs (avant et après problème de perfiormance), etc...
De mon côté, j'ai lancé un test et je ne vois pas de problème de performance sur les nœuds.
Pierre
Mis à jour par Mathurin Zoute il y a 18 jours
Argus Rusard a écrit (#note-10):
Je précise: nous n'avons pas de connaissance sur openfoam, c'est donc difficile pour nous de vous aider sans précision supplémentaire.
Est-ce toujours le même cript de lancement? Quels numéros de jobs (avant et après problème de perfiormance), etc...
De mon côté, j'ai lancé un test et je ne vois pas de problème de performance sur les nœuds.
Pierre
Bonjour,
A linstant sur les noeuds 2,3 et 28 (users : jmoulaine et rmorel) on a eu un gros ralentissement. Encore une fois cela ne provient pas d'openfoam. Est ce normal que les nodes laguent / ralentissent a des moments ?
Mis à jour par Argus Rusard il y a 18 jours
Encore une fois, j'avais compris.
Si vous voulez qu'on vous aide, apprenez à répondre aux questions qu'on vous pose.
Je répète:
- Est-ce le même script de job qu'en début de ticket?
- quels numéros de job?
Mis à jour par Argus Rusard il y a 16 jours
- Statut changé de En cours à Commentaire
- Priorité changé de Urgent à Bas