Voir l’état du cluster

Ressources libres, ressources allouées

Pour lister les noeuds libres actuellement :

sinfo --state=idle

Nœuds de calcul CPU

sinfo --Format Partition,NodeList,NodeAI,CPUsState -p cpucourt,cpulong,smp,visu

A=alloué, I=libre, O=autre, T=total

Voir l’occupation des GPUs

sinfo -NO "CPUsState:30,Gres:30,GresUsed:30,NodeList:30" -p gpu

Exemple :

[user@login-hpc ~]# sinfo -NO "CPUsState:30,Gres:30,GresUsed:30,NodeList:30" -p gpu
CPUS(A/I/O/T)           GRES                                 GRES_USED              NODELIST
0/32/0/32          gpu:v100:4(S:0-1)            gpu:v100:0(IDX:N/A),mic:0           gpu01
18/14/0/32         gpu:v100:4(S:0-1)            gpu:v100:1(IDX:3),mic:0             gpu02
47/5/0/52          gpu:a100:4(S:0-1)            gpu:a100:2(IDX:0-1),mic:0           gpu03

Ici, on voit qu’il y a une carte actuellement utilisée sur gpu02 qui dispose de 4 cartes V100 au total. Toutes les autres cartes GPU de cette machine sont libre, de même que les 4 cartes V100 de gpu01. 2 des 4 cartes A100 de gpu03 sont occupées ainsi que 47 coeurs CPU sur 52. Donc même si 2 cartes GPU sont libres, si vous envoyez un job qui a besoin de 10 coeurs CPU et d’une carte GPU sur gpu03, ce job sera en attente tant que les coeurs CPU n’auront pas été libérés.

Charge CPU actuelle des noeuds

sinfo --Format NodeHost,CPUsState,CPUsLoad -p cpucourt,cpulong,smp,gpu,visu

A=alloué, I=libre, O=autre, T=total

La charge est considérée normale tant que son score reste égal ou inférieur au nombre de cœurs actuellement alloués sur le nœud.

Informations sur les noeuds

Obtenir des informations sur tous les noeuds et leur occupation actuelle :

scontrol show nodes

Pour un noeud en particulier (ici compute01) :

scontrol show node compute01