Voir l’état du cluster

Ressources libres, ressources allouées

Pour lister les noeuds libres actuellement :

sinfo --state=idle

Nœuds de calcul CPU

sinfo --Format Partition,NodeList,NodeAI,CPUsState -p cpucourt,cpulong,smp,visu

A=alloué, I=libre, O=autre, T=total

Voir l’occupation des GPUs

sinfo -NO "Gres:30,GresUsed:30,NodeList:30" -p gpu

Exemple :

[user@login-hpc ~]# sinfo -NO "Gres:30,GresUsed:30,NodeList:30" -p gpu
GRES                                 GRES_USED              NODELIST
gpu:v100:4(S:0-1)            gpu:v100:0(IDX:N/A),mic:0      gpu01
gpu:v100:4(S:0-1)            gpu:v100:1(IDX:3),mic:0        gpu02
gpu:a100:4(S:0-1)            gpu:a100:0(IDX:N/A),mic:0      gpu03

Ici, on voit qu’il y a une carte actuellement utilisée sur gpu02 qui dispose de 4 cartes V100 au total. Toutes les autres cartes GPU de cette machine sont libre, de même que les 4 cartes V100 de gpu01 et les 4 cartes A100 de gpu03.

Charge CPU actuelle des noeuds

sinfo --Format NodeHost,CPUsState,CPUsLoad -p cpucourt,cpulong,smp,gpu,visu

A=alloué, I=libre, O=autre, T=total

La charge est considérée normale tant que son score reste égal ou inférieur au nombre de cœurs actuellement alloués sur le nœud.

Informations sur les noeuds

Obtenir des informations sur tous les noeuds et leur occupation actuelle :

scontrol show nodes

Pour un noeud en particulier (ici compute01) :

scontrol show node compute01