Aller au contenu

Profiling sous Slurm

Utilisation de la fonctionnalité de profiling de Slurm, accessible depuis la mise à jour de l'été 2020

Profiling désactivé par défaut

Par défaut, les calculs tournent sans l'activation du profiling.

Principe

Par défaut, Slurm indique et stocke la consommation mémoire d'un calcul. Celle-ci est consultable après la fin du calcul par la commande sacct. Quand le profiling est activé pour un calcul, Slurm collecte les données périodiquement et les stocke dans un fichier HDF5.

Usage

Lors du lancement du calcul (sbatch), rajouter l'option --profile=all

Une fois le calcul terminé, demander la collecte des fichiers générés en exécutant la commande sh5util -j $JOB_ID, en remplaçant JOB_ID par le numéro du calcul. Celle-ci génère un fichier (job_JOB_ID.h5) au format HDF5 contenant les données récoltées, dans le dossier en cours.

Les données

Sur Myria, seules les données liées aux tâches de calculs sont interrogeables (task). Vous pouvez suivre l'évolution de l'utilisation de la mémoire (RSS et VMSize).

Le système de fichiers GPFS n'est pas compatible avec le plugin de surveillance des lectures/écriture. De même le réseau Omni-Path n'est pas compatible avec le plugin de surveillance du réseau.
Pour visualiser le contenu du fichier HDF5, installer le logiciel HDFView sur votre poste de travail.

Pour aller plus loin

Pour plus d'informations, consulter la documentation Slurm : https://slurm.schedmd.com/archive/slurm-19.05.7/hdf5_profile_user_guide.html


Dernière mise à jour: 2 novembre 2020 12:03:07