Mon job est mis en attente (« PD – Pending » dans Slurm)
Vous pouvez connaître la date de début au plus tard de votre job avec la commande:
squeue --start
Votre job démarrera peut-être avant cette date car souvent les jobs en cours se terminent avant leur durée limite.
Si la raison invoquée par Slurm est :
MaxCpuPerAccount : chaque file d’attente définit des limitations spécifiques que vous pouvez consulter ici. Si les ressources demandées par votre job feraient dépasser ces limites, votre job est mis en attente jusqu’à ce que d’autres jobs de votre projet se terminent.
Resources : il n’y a pas assez de ressources disponibles sur le cluster actuellement pour satisfaire votre demande en termes de ressources et / ou de durée du job.
Priority : d’autres jobs sont également en attente et sont plus prioritaires que le vôtre. Cliquez ici pour lire les explications sur le système de priorité mis en place pour les jobs en attente.
Dependency : votre job dépend d’un évènement avant de pouvoir démarrer. Typiquement, il a besoin qu’un job se termine au préalable. Par exemple, vous avez utilisé l’option dependency after (voir les détails ici) dans la définition de votre job. Ou votre job a besoin d’une licence et celles à disposition sont actuellement toutes utilisées.
Mon job est refusé par Slurm
De nombreuses raisons peuvent causer le refus de votre job par Slurm, parmi lesquelles :
- Vous n’avez pas spécifié le nom de votre projet avec l’option account ou -A.
- Les ressources / walltime demandés dépassent les limitations pour la file d’attente voulue. Voir ces limitations ici.
- Vous demandez à calculer sur la file smp ou gpu alors que cet accès n’a pas été attribué à votre projet (cet accès n’est autorisé que sur demande).
- Vous n’êtes pas un chercheur permanent et la date de fin de votre contrat définie dans votre exemplaire de charte utilisateur a été atteinte. (Vous recevez des rappels un mois avant expiration et votre responsable doit nous prévenir si votre contrat est prolongé.)
- Votre projet n’a pas été renouvelé. Chaque année, le responsable du projet reçoit plusieurs rappels pour remplir ce formulaire. L’accès est automatiquement suspendu au bout d’un an si le formulaire n’est pas rempli (error: QOSGrpCPUMinutesLimit).