Ressources libres, ressources allouées
Pour lister les noeuds libres actuellement :
sinfo --state=idle
Nœuds de calcul CPU
sinfo --Format Partition,NodeList,NodeAI,CPUsState -p cpucourt,cpulong,smp,visu
A=alloué, I=libre, O=autre, T=total
Voir l’occupation des GPUs
sinfo -NO "CPUsState:30,Gres:30,GresUsed:30,NodeList:30" -p gpu
Exemple :
[user@login-hpc ~]# sinfo -NO "CPUsState:30,Gres:30,GresUsed:30,NodeList:30" -p gpu CPUS(A/I/O/T) GRES GRES_USED NODELIST 0/32/0/32 gpu:v100:4(S:0-1) gpu:v100:0(IDX:N/A),mic:0 gpu01 18/14/0/32 gpu:v100:4(S:0-1) gpu:v100:1(IDX:3),mic:0 gpu02 47/5/0/52 gpu:a100:4(S:0-1) gpu:a100:2(IDX:0-1),mic:0 gpu03
Ici, on voit qu’il y a une carte actuellement utilisée sur gpu02 qui dispose de 4 cartes V100 au total. Toutes les autres cartes GPU de cette machine sont libre, de même que les 4 cartes V100 de gpu01. 2 des 4 cartes A100 de gpu03 sont occupées ainsi que 47 coeurs CPU sur 52. Donc même si 2 cartes GPU sont libres, si vous envoyez un job qui a besoin de 10 coeurs CPU et d’une carte GPU sur gpu03, ce job sera en attente tant que les coeurs CPU n’auront pas été libérés.
Charge CPU actuelle des noeuds
sinfo --Format NodeHost,CPUsState,CPUsLoad -p cpucourt,cpulong,smp,gpu,visu
A=alloué, I=libre, O=autre, T=total
La charge est considérée normale tant que son score reste égal ou inférieur au nombre de cœurs actuellement alloués sur le nœud.
Informations sur les noeuds
Obtenir des informations sur tous les noeuds et leur occupation actuelle :
scontrol show nodes
Pour un noeud en particulier (ici compute01) :
scontrol show node compute01