Projet

Général

Profil

Actions

Anomalie #11

ouvert

Lancement de job

Ajouté par Mathurin Zoute il y a 25 jours. Mis à jour il y a 16 jours.

Statut:
Commentaire
Priorité:
Bas
Assigné à:
-
Début:
11/11/2025
Echéance:
% réalisé:

0%

Temps estimé:

Description

Bonjour,

En essayant d’exécuter un job sur le HPC avec 12 nodes, celui-ci est passé par plusieurs états “CF” dans la queue Slurm, puis la simulation a crashé (elle ne s’est jamais lancée).
Depuis, j’essaie de lancer le même cas avec moins de nodes (3,5...), mais le job est immédiatement supprimé après soumission : il n’apparaît pas dans la queue et rien ne se passe dans mon cas OpenFOAM.

Ce problème est arrivé deux fois avec plusieurs jours entre les deux essais.
Je vous joins le script du scheduler. Je n'ai pas de messages d'erreurs le message job submited s'affiche mais aucun job n'apparait dans la queue. Aussi après le premier bug (premier CF se termine puis PD puis CF puis plus rien) je n'ai plus accès aux commandes comme 'sinfo'

Auriez-vous une idée de ce qui pourrait provoquer ce comportement ?

Merci d'avance,
Bien à vous,
Mathurin


Fichiers

test.slurm (534 octets) test.slurm Mathurin Zoute, 11/11/2025 18:22
Actions

Formats disponibles : Atom PDF