Suivre ses jobs

Suivre un job en cours

Une fois que vous avez soumis un job, vous pouvez suivre son état avec la commande squeue :

squeue_colonne_st.png
Les différents états pour un job (colonne ST) sont : CA (canceled), CD (completed), CF (configuring), CG (completing), F (failed), NF (node fail), PD (pending), R (running), TO (timeout)

Votre job peut être mis en attente (état pending) pour différentes raisons listées sur cette page.

Pour obtenir les détails complets sur un job en cours, utilisez la commande :

 scontrol show job <JOBID> 

Pour les jobs soumis avec sbatch, la sortie standard (output) et les erreurs sont par défaut écrites dans un fichier nommé slurm-<JOBID>.out. Vous pouvez spécifier un autre fichier avec l’option output.

Si vous avez mentionné votre e-mail (voir exemple de soumission avec sbatch ci-dessus), vous recevrez un e-mail à chaque étape mentionnée dans mail-type (la liste complète des options est consultable ici).

Suivre la consommation d’heures CPU de mes projets

Lancer la commande usage_info vous permettra de consulter pour chacun de vos projets le temps CPU déjà consommé par rapport au temps total qui lui a été alloué par le comité scientifique. Ce temps consommé inclut les consommations effectuées par tous les membres du projet ayant un compte utilisateur sur le cluster. Le compteur de temps est mis à jour à chaque fois qu’un job est terminé.

Afficher l’historique de mes jobs

sacct -u <username> --format=JobID,JobName,partition,alloccpus,state,elapsed,maxrss,totalcpu,start,end -S <MM/JJ/AA>

Annuler un job

scancel <JOBID>

Pour annuler tous mes jobs en attente :

scancel -u <username> --state=pending

Pour annuler tous mes jobs (ceux en attente + ceux en cours d’exécution) :

scancel -u <username>