Actualités et formations¶
- Actualités et formations
- Actualités sur Austral
- 8.10.2024 : prochain comité technique
- 25.09.2024 : remise en production des noeuds Large et Alt
- 23.09.2024 : coupure électrique non programmée
- 6.09.2024 : fin de la maintenance
- 17.07.2024
- 25.06.2024 : Limitation de la durée des partitions GPU
- 20.06.2024 : comité Technique HPC
- 7.06.2024 : mise en place d'un quota sur les inodes
- 15.05.2024 : incident sur les serveurs GPU
- 16.04.2024 : comptabilité dans les fichiers .o
- 9.04.2024 : comité Technique HPC
- 26.03.2024 : coupure électrique non programmée
- 22.02.2024 : fin de la maintenance
- Prochaines formations
- Actualités sur Austral
Vous trouverez sur cette page les prochaines formations annoncées et les actualités importantes concernant le cluster Austral.
Actualités sur Austral¶
8.10.2024 : prochain comité technique¶
Le prochain comité technique HPC est programmé le mardi 8 octobre de 10h30 à 11h30, en mode hybride : dans nos locaux, et en visioconférence.
Ordre du jour :
- Bilan d'exploitation
- Focus technique : suites de la mise à jour
- Agenda
- Questions / Réponses
Inscriptions sur ce lien : https://evento.renater.fr/survey/criann-comite-technique-hpc-du-mardi-8-octobre-2024-8a4aw14m
Les informations de connexion seront envoyées à toutes les personnes inscrites, mais n’hésitez pas à venir participer dans nos locaux (accueil café à partir de 10h15).
25.09.2024 : remise en production des noeuds Large et Alt¶
La maintenance est terminée sur les serveurs Large et Alt (GPU AMD) : ils sont de retour en production.
Mise à jour de rocm en version 6.1.3.
23.09.2024 : coupure électrique non programmée¶
6.09.2024 : fin de la maintenance¶
- Remise en production progressive
- première phase : les serveurs fins, gpu/hpda et le service de visualisation
- prochainement : le noeud large et les serveurs GPU AMD (alt)
- Environnement
- Les modules initiaux de compilation cpe_env/*.08.23 ont été conservés et restent supportés par la nouvelle configuration d'Austral ; de nouvelles versions ont été ajoutées (cf. https://services.criann.fr/services/hpc/cluster-austral/guide/#environnement "Environnements les plus récents").
- Environnement pour l'IA
- Les drivers NVIDIA ont été mis à jour permettant l'utilisation de Cuda 12.6.
- Mises à jour système
- RedHat 8.7 -> 8.8
- Slurm : pas de mise à jour
- Slingshot 2.1.1 -> 2.2.0
- Nvidia driver 535.154.05 -> 560.35.03
17.07.2024¶
Mise en place des quotas sur les home-dir et les dossiers de partage.
25.06.2024 : Limitation de la durée des partitions GPU¶
Mise en place de la limite à 48h (2j) sur les 2 partitions gpu
et gpu_all
.
20.06.2024 : comité Technique HPC¶
Présentation : http://www.criann.fr/docs/0/actus/2024/CT-HPC-20240620.pdf
A retenir :
Changement des configurations des partitions pour les serveurs GPU
- Partitions
hpda
,hpda_mig
: durée max de 72h (3j)- Ressources max par calcul : 1 serveur (8 GPU)
- Ressources associées aux partitions : 6 serveurs + 1 serveur MIG
- Partition
gpu
,gpu_all
: durée max de 48h (2 j)- Ressources max par calcul : 2 serveurs (16 GPU)
- Ressources associées aux partitions : 10 serveurs
Stockage
- Quotas pour les futurs comptes : 50Go sur le homedir
- Quotas pour les nouveaux projets : 200Go sur le dossier PARTAGE
- Mise en place prochaine de quotas adaptés sur tous les homedir existants
Performances Lustre et IA
- Des tests sont en cours actuellement avec HPE : détails dans la présentation
- Recommandation d'un utilisateur du
GREYC
: utiliser la librairieWebDataset
pour un accès efficace à des jeux de données constitués d’un grand nombre de fichiers (gestion via des archives).
Date envisagée pour le prochain comité technique : 10 octobre 2024
7.06.2024 : mise en place d'un quota sur les inodes¶
Afin d’éviter une saturation de la baie de disques, nous avons mis en place des quotas sur la volumétrie et sur le nombre d’inodes (lié au nombre de fichiers).
Des limites strictes sont maintenant appliquées à chaque utilisateur, sur son usage de la totalité de la baie de disque :
- nombre d’inodes max : 5 millions
- volumétrie max : 30 To
En complément : le stockage temporaire (/dlocal/run) est maintenant nettoyé automatiquement pour conserver uniquement les dossiers de moins de 60 jours.
Plus d'informations dans la documentation : https://services.criann.fr/services/hpc/cluster-austral/guide/data-management/
15.05.2024 : incident sur les serveurs GPU¶
Une maintenance non programmée d'une journée et demi a eu lieu le 15-16 mai sur les serveurs GPU (c23gpu[1-6]). Les serveurs HPDA (c23hpda[1-5]) sont restés opérationnels.
16.04.2024 : comptabilité dans les fichiers .o¶
Un rapport de consommation du calcul est rajoutée en fin du fichier .o
Documentation en ligne
9.04.2024 : comité Technique HPC¶
Présentation : http://www.criann.fr/docs/0/actus/2024/CT-HPC-20240409.pdf
À retenir :
Changement des limitations par utilisateur :
- GPU : passage de 32 à 16 GPU / utilisateur en simultané
- CPU : passage de 8448 à 4224 cœurs / utilisateur (22 nœuds) en simultané pendant la semaine et 8448 cœurs / utilisateur (44 nœuds) pendant les week-end (du vendredi 17h au dimanche 20h)
Nouveautés :
- Ouverture du serveur Multi-Instance GPU (MIG) : 1 serveur HPDA de 8 GPUs => 31 devices au total.
- Ouverture des 2 serveurs de veille technologique équipés de 4 GPU AMD MI210 chacun
- Voir la présentation en lien ci-dessus, p30-34
- Nouveau service pour l'IA : Jupyterhub
26.03.2024 : coupure électrique non programmée¶
22.02.2024 : fin de la maintenance¶
-
Précaution pour les calculs MPI multi-noeuds, la consigne reste la même : rajouter l'option
--exclusive
afin de réserver les serveurs en entier. -
La quantité totale de mémoire disponible sur les serveurs a été réduite :
- 714 000M (3500M par coeur) pour les noeuds fin
- 492 000M (7600M par coeur) pour les serveurs équipés de GPU Nvidia
- Remise en production progressive
- première phase : les serveurs fins, gpu/hpda et le service de visualisation
- prochainement : le noeud large et les serveurs GPU AMD (alt)
- Environnement
- les modules initiaux de compilation
cpe_env/*.08.23
ont été conservés et restent supportés par la nouvelle configuration d’Austral (le module pré-chargé à la connexion est resté le même que précédemment :cpe_env/gcc-milan-08.23
). - Les nouveaux modules
cpe_env/*.02.24
(voirmodule avail cpe_env
) fournissent des versions plus récentes de compilateur ou de bibliothèque MPI ou de bibliothèque scientifique (cray-libsci
). Les développeurs qui souhaiteraient re-compiler leurs applications avec ces environnements, doivent nous contacter s’ils emploient des bibliothèques externes partagées (autres quecray-hdf5
,cray-fftw
,cray-libsci
) car nous devrons compiler ces bibliothèques avec ces nouveaux compilateurs.
- les modules initiaux de compilation
- Environnement pour l'IA
- Les drivers NVIDIA ont été mis à jour permettant l'utilisation de Cuda 12.2.
- Mises à jour système
- RedHat 8.6 -> 8.7
- Slurm 22.05.10 -> 23.02.7
- Slingshot 2.1.0 -> 2.1.1
- Nvidia SDK 22.7 -> 23.3
- Nvidia driver 515.65.01 -> 535.154.05
Prochaines formations¶
3.10.2024 + 15.10.2024 : Prise en main du calculateur Austral¶
Deux sessions d’une demi-journée (9h-12h30) sont proposées en visioconférence, à sélectionner en fonction de l’usage envisagé :
- pour un usage Deep Learning le jeudi 3 octobre matin
- pour un usage généraliste le mardi 15 octobre matin
Ces formations sont dispensées en français.
Inscriptions : https://indico.criann.fr/category/3/
9.10.2024 + 10.10.2024 Conférence "État de l’art du calcul quantique »¶
Une demi-journée (9h-12h00), à Rouen ou à Caen (la même conférence sur les deux sites) pour démystifier le calcul quantique auprès d’un expert du domaine.
Au programme: qubits, technologies et défis, modèles de programmation, domaines d’application…
- à Rouen le mercredi 9 octobre matin
- à Caen le jeudi 10 octobre matin
Ces conférences sont dispensées en français.
Inscriptions : https://indico.criann.fr/category/3/
12-13.12.2024 Python pour le HPDA¶
Les jeudi 12 et vendredi 13 décembre (9h00-12h30 et 13h30-17h00) dans les locaux du Criann.
Pré-requis : connaître les bases de Python (structures de contrôle, fonctions, E/S, sérialisation, itérateurs, décorateurs, …) ; notion de traitement statistique des données.
Notions abordées : structure de données ndarray (numpy), introduction à scipy, visualisation avec matplotlib et seaborn, analyse de données avec pandas , traitement distribué des données avec dask.
Cette formation est gratuite. Le nombre de places est limité.
Cette formation sont dispensée en français.
Inscriptions : https://indico.criann.fr/category/3/