Mise à jour du cluster en 2025

Cette année, le cluster va subir une importante mise à jour matérielle et logicielle, décrite ci-dessous.

Information importante

Nous vous rappelons que nous n’effectuons en aucun cas des sauvegardes de vos données. Les utilisateurs sont invités à régulièrement transférer leurs données depuis le cluster vers leurs propres moyens de stockage et à supprimer du cluster les données qui ne sont plus utiles pour les calculs. Cela est valable en toutes circonstances et nous déclinons toute responsabilité concernant vos fichiers sur le cluster.

Mise à jour logicielle terminée

La mise à jour logicielle a été réalisée en mars.

L’OS est passé de CentOS 7.9 à Rocky 9.5 sur toutes les machines.

Slurm est passé de la version 18.08.8 à 23.11.10.

Les drivers et firmware ont été mis à jour.

Suite à la mise à jour logicielle, veuillez noter :

  • Les codes compilés par les utilisateurs devront peut-être être recompilés à l’aide d’un nouveau module.
  • Les modules logiciels ont également été mis à jour. Les modules les plus importants sont disponibles (compilateurs GNU, OpenMPI et Intel, miniconda, Python, etc.). Cependant, leur version (d’où leur nom) a changé. Avant de soumettre une tâche, veuillez ajuster le nom du module à charger. Certains modules ne peuvent être chargés que si vous chargez d’abord leurs dépendances. Exemple : pour charger HDF5, vous devez d’abord charger gnu14/14.2.0, puis hdf5/1.14.5. Cliquez ici pour consulter l’aide sur l’utilisation des modules.
  • Une limitation (1 To) de l’espace de stockage par utilisateur sur le NFS (/home) est mise en place. Les utilisateurs impactés seront contactés par e-mail.
  • Des limites de charge sur login-hpc ont été instaurées, pour éviter que des utilisateurs exécutent du code directement sur cette machine et la ralentissent.

Calendrier des opérations restantes

Cet été, le cluster sera déménagé de son emplacement actuel à l’Inria Sophia Antipolis vers la nouvelle salle machine du campus Valrose.

  • 4 juillet 2025 : extinction du cluster. Plus aucun accès à vos données, pas de calcul possible.
  • 7-18 juillet 2025 : Déménagement du cluster existant, ajout du nouveau matériel et réinstallation. Indisponibilité totale du cluster.
  • 21 juillet au 1er août 2025 : Configuration du nouveau matériel. Des perturbations sont à prévoir sur l’accès à l’existant également.
  • 1 août 2025 : mise en service espérée du cluster dans son intégralité.

Nouveau matériel à l’été 2025

En juillet 2025, le matériel suivant sera ajouté à l’existant :

35 machines PowerEdge R6625 pour le calcul CPU, chacune équipée de :

  • 2 processeurs AMD EPYC 9124, 3 GHz à 16 cœurs (= 32 cœurs par machine)
  • 384 Go RAM

3 machines PowerEdge R760XA pour le calcul GPU, chacune équipée de :

  • 4 cartes NVIDIA H100 NVL, PCIe, 350 W-400 W, 94 Go
  • 2 processeurs Intel Xeon Gold 5420+ 2 GHz à 28 cœurs (= 56 cœurs par machine)
  • 512 Go RAM

La mémoire de la machine SMP existante va être augmentée et passera à 1,5 To.

Le stockage BeeGFS va être doublé et passera donc à 480 To.