Suivre ses jobs

Suivre un job en cours

Une fois que vous avez soumis un job, vous pouvez suivre son état avec la commande squeue :

  • Pour afficher vos jobs en cours ou en attente : squeue -u <username> 
  • Pour afficher les jobs en cours ou en attente de votre account Slurm : squeue -A <nom de l’account>
squeue_colonne_st.png
Les différents états pour un job (colonne ST) sont : CA (canceled), CD (completed), CF (configuring), CG (completing), F (failed), NF (node fail), PD (pending), R (running), TO (timeout)

Votre job peut être mis en attente (état pending) pour les raisons suivantes :

  • Il n’y actuellement pas assez de ressources disponibles sur le cluster pour satisfaire votre demande.
  • Vous utilisez déjà des ressources sur la file d’attente voulue (spécifiée avec l’option partition) et votre nouveau job vous ferait excéder la limite autorisée (voir les limites pour chaque file d’attente ici).

Dans les deux cas, il suffit d’attendre que des jobs en cours se terminent et votre job en attente sera lancé automatiquement. Voir aussi le système de priorité mis en place pour les jobs en attente.

Pour obtenir les détails complets sur un job en cours, utilisez la commande :

 scontrol show job <JOBID> 

Pour les jobs soumis avec sbatch, la sortie standard (output) et les erreurs sont par défaut écrites dans un fichier nommé slurm-<JOBID>.out. Vous pouvez spécifier un autre fichier avec l’option output.

Si vous avez mentionné votre e-mail (voir exemple de soumission avec sbatch ci-dessus), vous recevrez un e-mail à chaque étape mentionnée dans mail-type (la liste complète des options est consultable ici).

Suivre la consommation d’heures CPU de mes projets

Lancer la commande usage_info vous permettra de consulter pour chacun de vos projets le temps CPU déjà consommé par rapport au temps total qui lui a été alloué par le comité scientifique. Ce temps consommé inclut les consommations effectuées par tous les membres du projet ayant un compte utilisateur sur le cluster. Le compteur de temps est mis à jour à chaque fois qu’un job est terminé.

Afficher l’historique de mes jobs

sacct -u <username> --format=JobID,JobName,partition,alloccpus,state,elapsed,maxrss,totalcpu,start,end -S <MM/JJ/AA>

Annuler un job

scancel <JOBID>

Pour annuler tous mes jobs en attente :

scancel -u <username> --state=pending

Pour annuler tous mes jobs (ceux en attente + ceux en cours d’exécution) :

scancel -u <username>