Actualités et formations¶

Actualités et formations
- Formations
- Actualités sur Austral

Formations¶

Consultez les prochaines formations sur le portail : https://indico.criann.fr/category/3/

Actualités sur Austral¶

03.11.2025 : Fin de la maintenance¶

Remise en production progressive
- première phase :
  - les serveurs fins et gpu (NVIDIA A100 + H200)
  - les services de visualisation et Jupyter
- prochainement : le nœud large et les noeuds équipés de GPU AMD
Changement majeur : l’OS a été migré de Red Hat 8.10 à Red Hat 9.4
- Par défaut vous êtes sur le nouvel environnement.
- Consultez la documentation pour les nouvelles consignes de compilation
Environnement pour les utilisateurs des serveurs GPU
- Les drivers NVIDIA ont été mis à jour permettant l'utilisation de Cuda 13.0.
Mises à jour système (éléments principaux)
- RedHat 8.10 -> 9.4
- Nvidia driver 565.57.01 -> 580.95.05

3.06.2025 : Journée scientifique utilisateurs¶

Programme : https://indico.criann.fr/event/30/

2.06.2025 : Suppression automatique des dossiers de scratch /dlocal/run/jobid 45j après la fin du calcul¶

20.05.2025 : Coupure électrique non programmée¶

16.04.2025 : Remise en production du serveur austral-transfert.criann.fr¶

11.04.2025 : Évolution des partitions GPU¶

Modification des partitions existantes pour les serveurs équipés de GPU Nvidia A100 :

partitions gpu, hpda, gpu_all : quantité de mémoire par cœur par défaut = 3750Mo (au lieu de 1900Mo)
partition gpu : durée limite = 24h (au lieu de 48h)
partition hpda : durée limite = 48h (au lieu de 72h)
partition gpu_all :
- durée limite = 24h (au lieu de 48h)
- taille des calculs : 1 nœud (au lieu de 2 nœuds)
partition hpda_mig :
- durée limite = 24h (au lieu de 72h)
- nombre de cœur per GPU par défaut = 4 cœurs (au lieu de 1 cœur/GPU)

Ajout d'une nouvelle partition gpu_debug sur les serveurs équipés de GPU Nvidia A100 :

durée limite : 30 minutes
nombre de GPU max par calcul : 1
nombre de cœurs max par calcul : 16
nombre de calculs simultanés : 1
quantité de mémoire par défaut : 3750Mo
nœuds disponibles : tous les nœuds des partitions gpu et hpda
partition plus prioritaire que les autres partitions

Tableau récapitulatif : https://services.criann.fr/services/hpc/cluster-austral/guide/#les-partitions-classes-de-soumission

2.04.2025 : Comité Technique HPC¶

Présentation : https://www.criann.fr/docs/0/actus/2025/CT-HPC-20250402.pdf

A retenir :

Partitions Slurm sur les GPU Nvidia : les partitions vont évoluer dans les prochains jours :
- La durée de 72h n'est plus indispensables : des limites à 24h ou 48h faciliteraient le renouvellement des ressources
- Une partition très courte et plus prioritaire serait la bienvenue
H200 : prochainement vous pourrez utiliser deux nouveaux serveurs équipés chacun de 8 GPU NVIDIA H200

Agenda :

3 juin au Madrillet : Journée scientifique des utilisateurs du Criann
4 juin (à confirmer) : demi-journée de présentation orientée IA par NVIDIA
semaine du 16 juin : Comité Technique spécifique IA

17.02.2025 : Fin de la maintenance¶

Remise en production progressive
- première phase :
  - les serveurs fins, gpu/hpda et alt
  - les services de visualisation et Jupyter
- prochainement : le nœud large et le service MLDE
Environnement
- Les modules initiaux de compilation cpe_env/*.08.23 ont été conservés et restent supportés par la nouvelle configuration d'Austral ; une nouvelle version a été ajoutée (cf. https://services.criann.fr/services/hpc/cluster-austral/guide/#environnement "Environnements les plus récents").
Environnement pour les utilisateurs des serveurs GPU
- Les drivers NVIDIA ont été mis à jour permettant l'utilisation de Cuda 12.7.
- Le multithreading (SMT) a été activé sur tous les serveurs gpu+hpda
  - la partition gpu_smt est supprimée et sa configuration devient la norme.
  - vous pouvez maintenant demander jusqu'à 16 cœurs par GPU
Mises à jour système (éléments principaux)
- RedHat 8.8 -> 8.10
- Slurm : 23.02 -> 24.05
- Nvidia driver 560.35.03 -> 565.57.01
Nœud de transfert (austral-transfert) toujours en panne

10.10.2024 : Limite sur l'utilisation des GPU¶

Changement de la limitation du nombre de GPU et de cœurs cumulés pour les partitions gpu, gpu_all, hpda :

en semaine : 16 GPU et 128 cœurs
pendant les week-end (vendredi 17h au dimanche 20h): 32 GPU et 256 cœurs

Les partitions gpu_mig et gpu_smt ne sont pas concernées.

Recommandation : limitez vos demandes à 8 cœurs par GPU.

8.10.2024 : Comité Technique HPC¶

Présentation : http://www.criann.fr/docs/0/actus/2024/CT-HPC-20241008.pdf

A retenir :

Ajout d'une partition gpu_smt contenant un serveur GPU avec le mode multithreading activé (128 cœurs)
Activation du mode semaine/week-end pour les partitions GPU en doublant les ressources autorisées pendant les week-end
Nouvelle version des documents d'ouverture de comptes (https://www.criann.fr/formulaires/)

25.09.2024 : Remise en production des noeuds Large et Alt¶

La maintenance est terminée sur les serveurs Large et Alt (GPU AMD) : ils sont de retour en production.

Mise à jour de rocm en version 6.1.3.

23.09.2024 : Coupure électrique non programmée¶

6.09.2024 : Fin de la maintenance¶

Remise en production progressive
- première phase : les serveurs fins, gpu/hpda et le service de visualisation
- prochainement : le noeud large et les serveurs GPU AMD (alt)
Environnement
- Les modules initiaux de compilation cpe_env/*.08.23 ont été conservés et restent supportés par la nouvelle configuration d'Austral ; de nouvelles versions ont été ajoutées (cf. https://services.criann.fr/services/hpc/cluster-austral/guide/#environnement "Environnements les plus récents").
Environnement pour l'IA
- Les drivers NVIDIA ont été mis à jour permettant l'utilisation de Cuda 12.6.
Mises à jour système
- RedHat 8.7 -> 8.8
- Slurm : pas de mise à jour
- Slingshot 2.1.1 -> 2.2.0
- Nvidia driver 535.154.05 -> 560.35.03

17.07.2024 Mise en place des Quotas¶

Mise en place des quotas sur les home-dir et les dossiers de partage.

25.06.2024 : Limitation de la durée des partitions GPU¶

Mise en place de la limite à 48h (2j) sur les 2 partitions gpu et gpu_all.

20.06.2024 : Comité Technique HPC¶

Présentation : http://www.criann.fr/docs/0/actus/2024/CT-HPC-20240620.pdf

A retenir :

Changement des configurations des partitions pour les serveurs GPU

Partitions hpda, hpda_mig : durée max de 72h (3j)
- Ressources max par calcul : 1 serveur (8 GPU)
- Ressources associées aux partitions : 6 serveurs + 1 serveur MIG
Partition gpu, gpu_all : durée max de 48h (2 j)
- Ressources max par calcul : 2 serveurs (16 GPU)
- Ressources associées aux partitions : 10 serveurs

Stockage

Quotas pour les futurs comptes : 50Go sur le homedir
Quotas pour les nouveaux projets : 200Go sur le dossier PARTAGE
Mise en place prochaine de quotas adaptés sur tous les homedir existants

Performances Lustre et IA

Des tests sont en cours actuellement avec HPE : détails dans la présentation
Recommandation d'un utilisateur du GREYC : utiliser la librairie WebDataset pour un accès efficace à des jeux de données constitués d’un grand nombre de fichiers (gestion via des archives).

Date envisagée pour le prochain comité technique : 10 octobre 2024

7.06.2024 : Mise en place d'un quota sur les inodes¶

Afin d’éviter une saturation de la baie de disques, nous avons mis en place des quotas sur la volumétrie et sur le nombre d’inodes (lié au nombre de fichiers).

Des limites strictes sont maintenant appliquées à chaque utilisateur, sur son usage de la totalité de la baie de disque :

nombre d’inodes max : 5 millions
volumétrie max : 30 To

En complément : le stockage temporaire (/dlocal/run) est maintenant nettoyé automatiquement pour conserver uniquement les dossiers de moins de 60 jours.

Plus d'informations dans la documentation : https://services.criann.fr/services/hpc/cluster-austral/guide/data-management/

15.05.2024 : Incident sur les serveurs GPU¶

Une maintenance non programmée d'une journée et demi a eu lieu le 15-16 mai sur les serveurs GPU (c23gpu[1-6]). Les serveurs HPDA (c23hpda[1-5]) sont restés opérationnels.

16.04.2024 : Comptabilité dans les fichiers .o¶

Un rapport de consommation du calcul est rajoutée en fin du fichier .o
Documentation en ligne

9.04.2024 : Comité Technique HPC¶

Présentation : http://www.criann.fr/docs/0/actus/2024/CT-HPC-20240409.pdf

À retenir :

Changement des limitations par utilisateur :

GPU : passage de 32 à 16 GPU / utilisateur en simultané
CPU : passage de 8448 à 4224 cœurs / utilisateur (22 nœuds) en simultané pendant la semaine et 8448 cœurs / utilisateur (44 nœuds) pendant les week-end (du vendredi 17h au dimanche 20h)

Nouveautés :

Ouverture du serveur Multi-Instance GPU (MIG) : 1 serveur HPDA de 8 GPUs => 31 devices au total.
- Documentation : https://services.criann.fr/services/hpc/cluster-austral/guide/#gpus-mig
Ouverture des 2 serveurs de veille technologique équipés de 4 GPU AMD MI210 chacun
- Voir la présentation en lien ci-dessus, p30-34
Nouveau service pour l'IA : Jupyterhub
- Documentation : https://services.criann.fr/services/hpc/cluster-austral/guide/jupyter/

26.03.2024 : Coupure électrique non programmée¶

22.02.2024 : Fin de la maintenance¶

Précaution pour les calculs MPI multi-noeuds, la consigne reste la même : rajouter l'option --exclusive afin de réserver les serveurs en entier.
La quantité totale de mémoire disponible sur les serveurs a été réduite :
- 714 000M (3500M par coeur) pour les noeuds fin
- 492 000M (7600M par coeur) pour les serveurs équipés de GPU Nvidia
Remise en production progressive
- première phase : les serveurs fins, gpu/hpda et le service de visualisation
- prochainement : le noeud large et les serveurs GPU AMD (alt)
Environnement
- les modules initiaux de compilation cpe_env/*.08.23 ont été conservés et restent supportés par la nouvelle configuration d’Austral (le module pré-chargé à la connexion est resté le même que précédemment : cpe_env/gcc-milan-08.23).
- Les nouveaux modules cpe_env/*.02.24 (voir module avail cpe_env) fournissent des versions plus récentes de compilateur ou de bibliothèque MPI ou de bibliothèque scientifique (cray-libsci). Les développeurs qui souhaiteraient re-compiler leurs applications avec ces environnements, doivent nous contacter s’ils emploient des bibliothèques externes partagées (autres que cray-hdf5, cray-fftw, cray-libsci) car nous devrons compiler ces bibliothèques avec ces nouveaux compilateurs.
Environnement pour l'IA
- Les drivers NVIDIA ont été mis à jour permettant l'utilisation de Cuda 12.2.
Mises à jour système
- RedHat 8.6 -> 8.7
- Slurm 22.05.10 -> 23.02.7
- Slingshot 2.1.0 -> 2.1.1
- Nvidia SDK 22.7 -> 23.3
- Nvidia driver 515.65.01 -> 535.154.05

Dernière mise à jour: 3 novembre 2025 13:43:35