Ressources libres, ressources allouées
Pour lister les noeuds libres actuellement :
sinfo --state=idle
Nœuds de calcul CPU
sinfo --Format Partition,NodeList,NodeAI,CPUsState -p cpucourt,cpulong,smp,visu
A=alloué, I=libre, O=autre, T=total
Voir l’occupation des GPUs
sinfo -NO "Gres:30,GresUsed:30,NodeList:30" -p gpu
Exemple :
[user@login-hpc ~]# sinfo -NO "Gres:30,GresUsed:30,NodeList:30" -p gpu GRES GRES_USED NODELIST gpu:v100:4(S:0-1) gpu:v100:0(IDX:N/A),mic:0 gpu01 gpu:v100:4(S:0-1) gpu:v100:1(IDX:3),mic:0 gpu02 gpu:a100:4(S:0-1) gpu:a100:0(IDX:N/A),mic:0 gpu03
Ici, on voit qu’il y a une carte actuellement utilisée sur gpu02 qui dispose de 4 cartes V100 au total. Toutes les autres cartes GPU de cette machine sont libre, de même que les 4 cartes V100 de gpu01 et les 4 cartes A100 de gpu03.
Charge CPU actuelle des noeuds
sinfo --Format NodeHost,CPUsState,CPUsLoad -p cpucourt,cpulong,smp,gpu,visu
A=alloué, I=libre, O=autre, T=total
La charge est considérée normale tant que son score reste égal ou inférieur au nombre de cœurs actuellement alloués sur le nœud.
Informations sur les noeuds
Obtenir des informations sur tous les noeuds et leur occupation actuelle :
scontrol show nodes
Pour un noeud en particulier (ici compute01) :
scontrol show node compute01