Ajout de nouveau matériel en 2025

Cette année, le cluster va subir une importante mise à jour matérielle et logicielle, décrite ci-dessous.

Information importante

Nous vous rappelons que nous n’effectuons en aucun cas des sauvegardes de vos données. Les utilisateurs sont invités à régulièrement transférer leurs données depuis le cluster vers leurs propres moyens de stockage et à supprimer du cluster les données qui ne sont plus utiles pour les calculs. Cela est valable en toutes circonstances et nous déclinons toute responsabilité concernant vos fichiers sur le cluster.

Calendrier des opérations

Les dates ci-dessous sont susceptibles d’évoluer légèrement.

  • A partir du 17 février 2025 et tout le printemps : mises à jour logicielles, notamment l’OS qui passera de CentOS à Rocky, les drivers, Slurm et certains modules. De légères perturbations sont prévues mais l’impact sur les utilisateurs devrait être quasi nul sauf :
  • Autour du 3 mars 2025 : prévoir 3 ou 4 jours de perturbations liés à la mise à jour des systèmes de stockage notamment. Donc pas d’accès à vos données, pas de calcul possible. Des e-mails seront envoyés pour vous prévenir.

Suite à la mise à jour logicielle, veuillez noter :

  • Une limitation (à définir) de l’espace de stockage par utilisateur sur le NFS (/home) sera mise en place. Les utilisateurs impactés seront contactés par e-mail.
  • Les codes compilés avec le module openmpi/4.1.2 devront peut-être être recompilés à l’aide d’un nouveau module.

Cet été, le cluster sera déménagé de son emplacement actuel à l’Inria Sophia Antipolis vers la nouvelle salle machine du campus Valrose.

  • 4 juillet 2025 : extinction du cluster. Plus aucun accès à vos données, pas de calcul possible.
  • 7-18 juillet 2025 : Déménagement du cluster existant, ajout du nouveau matériel et réinstallation. Indisponibilité totale du cluster.
  • 21 juillet au 1er août 2025 : Configuration du nouveau matériel. Des perturbations sont à prévoir sur l’accès à l’existant également.
  • 1 août 2025 : mise en service espérée du cluster dans son intégralité.

Nouveau matériel à l’été 2025

En juillet 2025, le matériel suivant sera ajouté à l’existant :

35 machines PowerEdge R6625 pour le calcul CPU, chacune équipée de :

  • 2 processeurs AMD EPYC 9124, 3 GHz à 16 cœurs (= 32 cœurs par machine)
  • 384 Go RAM

3 machines PowerEdge R760XA pour le calcul GPU, chacune équipée de :

  • 4 cartes NVIDIA H100 NVL, PCIe, 350 W-400 W, 94 Go
  • 2 processeurs Intel Xeon Gold 5420+ 2 GHz à 28 cœurs (= 56 cœurs par machine)
  • 512 Go RAM

La mémoire de la machine SMP existante va être augmentée et passera à 1,5 To.

Le stockage BeeGFS va être doublé et passera donc à 480 To.