Anomalie #11: Lancement de job - Poudlard - Gazette du sorcier

Actions

Copier le lien

Anomalie #11

ouvert

Lancement de job

Ajouté par Mathurin Zoute il y a 4 mois. Mis à jour il y a 4 mois.

Statut:

Commentaire

Priorité:

Bas

Assigné à:

Début:

11/11/2025

Echéance:

% réalisé:

Temps estimé:

Description

Bonjour,

En essayant d’exécuter un job sur le HPC avec 12 nodes, celui-ci est passé par plusieurs états “CF” dans la queue Slurm, puis la simulation a crashé (elle ne s’est jamais lancée).
Depuis, j’essaie de lancer le même cas avec moins de nodes (3,5...), mais le job est immédiatement supprimé après soumission : il n’apparaît pas dans la queue et rien ne se passe dans mon cas OpenFOAM.

Ce problème est arrivé deux fois avec plusieurs jours entre les deux essais.
Je vous joins le script du scheduler. Je n'ai pas de messages d'erreurs le message job submited s'affiche mais aucun job n'apparait dans la queue. Aussi après le premier bug (premier CF se termine puis PD puis CF puis plus rien) je n'ai plus accès aux commandes comme 'sinfo'

Auriez-vous une idée de ce qui pourrait provoquer ce comportement ?

Merci d'avance,
Bien à vous,
Mathurin

Fichiers

test.slurm (534 octets) test.slurm

Mathurin Zoute, 11/11/2025 18:22

Actions

Copier le lien

Mis à jour par Minerva Mac Gonagall il y a 4 mois

Statut changé de Nouveau à En cours

Bonjour Mathurin,

Si je regarde les jobs que tu as lancé, ils se sont tous bien exécutés.
Voici un exemple:

$ sacct --format=User%10,JobID%20,Jobname%10,partition,state%20,time,start,end,elapsed,MaxRss,MaxVMSize,ReqMem,nnodes,ncpus,nodelist%60,AllocTRES%60,AveRSS,submit,ConsumedEnergy%30,AveCPUFreq,TresUsageOutTot%100 --units=G --duplicates -j 9696
      User                JobID    JobName  Partition                State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize     ReqMem   NNodes      NCPUS                                                     NodeList                                                    AllocTRES     AveRSS              Submit                 ConsumedEnergy AveCPUFreq                                                                                      TRESUsageOutTot 
---------- -------------------- ---------- ---------- -------------------- ---------- ------------------- ------------------- ---------- ---------- ---------- ---------- -------- ---------- ------------------------------------------------------------ ------------------------------------------------------------ ---------- ------------------- ------------------------------ ---------- ---------------------------------------------------------------------------------------------------- 
    mzoute                 9696        Sim gryffondor            COMPLETED   04:00:00 2025-11-10T13:40:27 2025-11-10T13:40:28   00:00:01                              40G        5        160                                               c[004-007,009]                           billing=160,cpu=160,mem=40G,node=5            2025-11-10T13:40:26                              0                                                                                                                 
                     9696.batch      batch                       COMPLETED            2025-11-10T13:40:27 2025-11-10T13:40:28   00:00:01      0.00G      0.14G                   1         32                                                         c004                                         cpu=32,mem=8G,node=1      0.00G 2025-11-10T13:40:27                              0      0.00G                                                                               energy=0,fs/disk=0.00G 
                    9696.extern     extern                       COMPLETED            2025-11-10T13:40:27 2025-11-10T13:40:28   00:00:01      0.00G      0.14G                   5        160                                               c[004-007,009]                           billing=160,cpu=160,mem=40G,node=5      0.00G 2025-11-10T13:40:27                              0      3.00G                                                                                   energy=0,fs/disk=0

Effectivement, le job est en statut COMPLETED mais l'exécution n'a duré qu'une seconde donc il faut regarder dans le fichier de sortie du job.
Je vois que dans ton script de soumission tu envoies les messages de sortie et d'erreur dans le fichier sortie.log qui devrait se trouver dans le chemin que tu as défini dans la directive chdir donc dans le répertoire /nfs/home/mzoute/ESCOBAR.

As-tu des messages d'erreurs à l'intérieur?

Par ailleurs, si tu lances la commande sinfo, est-ce que tu obtiens bien ceci?

$ sinfo
PARTITION   AVAIL  TIMELIMIT  NODES  STATE NODELIST
gryffondor     up 2-00:00:00     33  idle~ c[001-033]
serpentard     up 2-00:00:00     33  idle~ c[001-033]
serdaigle      up 2-00:00:00     33  idle~ c[001-033]
poufsouffle    up 2-00:00:00     33  idle~ c[001-033]
longq          up 10-00:00:0     33  idle~ c[001-033]
cracmols       up 2-00:00:00     20  idle~ c[013-032]
visu           up 1-00:00:00      2   idle gpu[01-02]
gpu            up 2-00:00:00      1   idle gpu03

Alexandra

Actions

Copier le lien

Mis à jour par Mathurin Zoute il y a 4 mois

Bonjour,

Les fichiers .log ne se créent pas. Ce pourquoi je ne comprends pas la cause du problème. Le même type de comportement est aussi apparu chez mon collègue Jules Moulaine.

Si je lance sinfo j'obtiens effectivement ceci mais après le bug de lancement la commande sinfo ne fonctionne plus.

Bien à vous
Mathurin

Actions

Copier le lien

Mis à jour par Minerva Mac Gonagall il y a 4 mois

Pourtant, je vois bien un fichier de log dans votre home qui a été créé à la fin de l'exécution de votre dernier job:

$ ls -lart /nfs/home/mzoute/ESCOBAR
total 29
drwx------. 6 mzoute gryffondor  10 10 nov.  13:39 ..
drwxr-xr-x. 2 mzoute gryffondor   3 10 nov.  13:39 .
-rw-r--r--. 1 mzoute gryffondor 415 10 nov.  13:40 sortie.log

Alexandra

Actions

Copier le lien

Mis à jour par Minerva Mac Gonagall il y a 4 mois

Bonjour,

Est-ce que vous avez trouvé un message d'erreur?

Par ailleurs, j'ai vu qu'il vous manquait des fichiers d'environnement (.bashrc, .bash_profile, ...) dans votre home.
Je les ai remis, vous ne devriez plus avoir les problèmes avec sinfo.

Alexandra

Actions

Copier le lien

Mis à jour par Argus Rusard il y a 4 mois

Bonjour, ta réponse par mail ne fonctionnera pas. Il faut que tu répondes au ticket dans l'interface web.

Pierre

Actions

Copier le lien

Mis à jour par Mathurin Zoute il y a 4 mois

Bonjour,
J’arrive désormais à lancer des jobs merci beaucoup pour votre aide.

Cependant avec mes collègues nous avons remarqué des gros ralentissements lors de l’exécution de nos codes (passant de 0.1s/ itération à 20s / itération) sans raison apparente. Auriez vous une idée d'où cela peu provenir ?
Enfin nous avons du mal à comprendre le meilleur setup entre peu de tasks par noeuds sur plus de noeuds ou beaucoup de tasks par noeuds sur peu de noeuds. Auriez vous des retours d’expérience ou des conseils à nous donner sur ce point s’il vous plaît ?

Merci encore,
Bien à vous,
Mathurin

Minerva Mac Gonagall a écrit (#note-4):

Bonjour,

Est-ce que vous avez trouvé un message d'erreur?

Par ailleurs, j'ai vu qu'il vous manquait des fichiers d'environnement (.bashrc, .bash_profile, ...) dans votre home.
Je les ai remis, vous ne devriez plus avoir les problèmes avec sinfo.

Alexandra

Actions

Copier le lien

Mis à jour par Argus Rusard il y a 4 mois

Bonjour,

Mathurin Zoute a écrit (#note-6):

Bonjour,
J’arrive désormais à lancer des jobs merci beaucoup pour votre aide.

Cependant avec mes collègues nous avons remarqué des gros ralentissements lors de l’exécution de nos codes (passant de 0.1s/ itération à 20s / itération) sans raison apparente. Auriez vous une idée d'où cela peu provenir ?

Euyh, non. Je ne connais pas OpenFoam...

Enfin nous avons du mal à comprendre le meilleur setup entre peu de tasks par noeuds sur plus de noeuds ou beaucoup de tasks par noeuds sur peu de noeuds. Auriez vous des retours d’expérience ou des conseils à nous donner sur ce point s’il vous plaît ?

En général, c'est mieux de demander moins de nœuds. Dans un cluster utilisé, on peut avoir moins de temps d'attente quand on disperse les tâches sur plus de nœuds mais ça peut causer des problèmes selon le type de calcul qu'on fait.

Pierre

Actions

Copier le lien

Mis à jour par Mathurin Zoute il y a 4 mois

Argus Rusard a écrit (#note-7):

Bonjour,

Mathurin Zoute a écrit (#note-6):

Bonjour,
J’arrive désormais à lancer des jobs merci beaucoup pour votre aide.

Cependant avec mes collègues nous avons remarqué des gros ralentissements lors de l’exécution de nos codes (passant de 0.1s/ itération à 20s / itération) sans raison apparente. Auriez vous une idée d'où cela peu provenir ?

Euyh, non. Je ne connais pas OpenFoam...

Enfin nous avons du mal à comprendre le meilleur setup entre peu de tasks par noeuds sur plus de noeuds ou beaucoup de tasks par noeuds sur peu de noeuds. Auriez vous des retours d’expérience ou des conseils à nous donner sur ce point s’il vous plaît ?

En général, c'est mieux de demander moins de nœuds. Dans un cluster utilisé, on peut avoir moins de temps d'attente quand on disperse les tâches sur plus de nœuds mais ça peut causer des problèmes selon le type de calcul qu'on fait.

Pierre

Bonjour,
Cela ne provient pas d'openfoam car ça n'arrive pas lorsque l'on lance sur nos pc persos

Actions

Copier le lien

Mis à jour par Argus Rusard il y a 4 mois

Je comprends bien mais je ne peux pas vous aider.

Actions

Copier le lien

#10

Mis à jour par Argus Rusard il y a 4 mois

Je précise: nous n'avons pas de connaissance sur openfoam, c'est donc difficile pour nous de vous aider sans précision supplémentaire.

Est-ce toujours le même cript de lancement? Quels numéros de jobs (avant et après problème de perfiormance), etc...

De mon côté, j'ai lancé un test et je ne vois pas de problème de performance sur les nœuds.

Pierre

Actions

Copier le lien

#11

Mis à jour par Mathurin Zoute il y a 4 mois

Argus Rusard a écrit (#note-10):

Je précise: nous n'avons pas de connaissance sur openfoam, c'est donc difficile pour nous de vous aider sans précision supplémentaire.

Est-ce toujours le même cript de lancement? Quels numéros de jobs (avant et après problème de perfiormance), etc...

De mon côté, j'ai lancé un test et je ne vois pas de problème de performance sur les nœuds.

Pierre

Bonjour,
A linstant sur les noeuds 2,3 et 28 (users : jmoulaine et rmorel) on a eu un gros ralentissement. Encore une fois cela ne provient pas d'openfoam. Est ce normal que les nodes laguent / ralentissent a des moments ?

Actions

Copier le lien

#12

Mis à jour par Argus Rusard il y a 4 mois

Encore une fois, j'avais compris.

Si vous voulez qu'on vous aide, apprenez à répondre aux questions qu'on vous pose.

Je répète:

Est-ce le même script de job qu'en début de ticket?
quels numéros de job?

Actions

Copier le lien

#13

Mis à jour par Argus Rusard il y a 4 mois

Statut changé de En cours à Commentaire
Priorité changé de Urgent à Bas

Actions

Copier le lien

Formats disponibles : Atom PDF

Projet

Général

Profil

Poudlard

Rapports personnalisés

Anomalie #11

Lancement de job

Mis à jour par Minerva Mac Gonagall il y a 4 mois

Mis à jour par Mathurin Zoute il y a 4 mois

Mis à jour par Minerva Mac Gonagall il y a 4 mois

Mis à jour par Minerva Mac Gonagall il y a 4 mois

Mis à jour par Argus Rusard il y a 4 mois

Mis à jour par Mathurin Zoute il y a 4 mois

Mis à jour par Argus Rusard il y a 4 mois

Mis à jour par Mathurin Zoute il y a 4 mois

Mis à jour par Argus Rusard il y a 4 mois

Mis à jour par Argus Rusard il y a 4 mois

Mis à jour par Mathurin Zoute il y a 4 mois

Mis à jour par Argus Rusard il y a 4 mois

Mis à jour par Argus Rusard il y a 4 mois