Aller au contenu

Gestion des données sur la baie de disques

Les chemins, les quotas, les conseils et commandes pour gérer au mieux ses données de calcul sur Austral

Introduction

Les données du calculateur Austral sont stockées sur une baie de disques accessible sur l'ensemble du cluster en Lustre.
Les performances mesurées lors de la livraison sont de 200 Go/s en lecture et 330 Go/s en écriture pour l'espace par défaut sur technologie de stockage Flash.
A la saturation de l'espace Flash, les données sont automatiquement migrées sur un espace en technologie de stockage de disques rotatifs moins performants.
Ces deux espaces forment un système de fichiers unique présenté sur les nœuds du calculateur Austral.

L'espace de stockage étant configuré pour un système de fichiers unique, les limites de stockage sont apposées sur des chemins dans l'arborescence lié aux projets.

Quelques commandes pratiques

Combien d'espace disque est-ce que je consomme ?

Les quotas étant à la fois utilisateur et de projet, il faut principalement se fier aux consommations des projets. Chaque fichier/dossier dont vous avez la possession est donc comptabilisé pour l'utilisateur et le dossier de projet.

consommation globale et quota utilisateur

lfs quota -u $(id -un) /home
consommation d'un dossier de projet (ici /home/criann)

PROJID=$(lfs project -d /home/criann | awk '{print $1}')
if [ "${PROJID}" == "0" ]; then echo "Espace hors quota projet"; else lfs quota -p "${PROJID}" -h /home; fi

ou bien

# aide sur la commande cri_quota : cri_quota -h
cri_quota -H /home/criann

Comment connaître la liste des dossiers temporaires de calcul de l'utilisateur nom_login ?

find /dlocal/run -type d -mindepth 1 -maxdepth 1 -user nom_login

Comment connaître la liste des calculs soumis dans la partition hpda entre le 1/10/2023 et le 15/10/2023 pour faire du ménage ?

sacct -r hpda -S 2023-10-01 -E 2023-10-15

Vous pouvez rajouter l'option -l pour afficher plus d'informations.

Comment connaître le nombre de fichiers d'un dossier chemin_dossier ?

find chemin_dossier -type f | wc -l

J'ai besoin de faire diminuer mon nombre de fichiers, mais je ne peux rien supprimer. Comment faire ?

Archivez certaines arborescences avec la commande tar : une archive = 1 fichier

L'archivage permet aussi de simplifier et optimiser les transferts réseaux, notamment pour le rapatriement de vos données sur vos espaces de stockage dans vos laboratoires.

Quelques conseils

Dans les scripts de soumission...

Le rapatriement des données s'effectue avec une commande mv. Ne la remplacer surtout pas par un cp, qui duplique les données et qui peut être très longue à s'exécuter.

Si vous développez...

Privilégiez les fichiers volumineux avec des formats de type HDF5 plutôt qu'une multitude de petits fichiers. Vous gagnerez en performances sur les clusters de calcul avec des tailles de blocs importantes.

Si vous générez beaucoup de fichiers...

Surveillez votre quota. Affichez-le automatiquement lors de la connexion (via ajout approprié dans votre fichier ~/.bash_profile).

Quelques informations complémentaires

Les dossiers et leur usage

  • /home contient les dossiers d'accueil des utilisateurs.
  • /dlocal contient les dossiers temporaires des calculs (/dlocal/run) et certains dossiers de calcul permanents (/dlocal/home) quand le besoin est qualifié.
  • /soft contient les logiciels mis à disposition par le CRIANN

Warning

aucune sauvegarde n'est effectuée sur les données utilisateurs. Pensez à rapatrier vos codes et vos données dans vos laboratoires.

Nous vous encourageons fortement à utiliser les outils de versioning, tel que GIT, de vos établissements. Renseignez-vous auprès de vos DSI.

Le client git est installé sur les frontales, sans chargement de module.

Les quotas

Des quotas ont été appliqués :

  • pour chaque utilisateur afin de limiter les risques d'erreur par saturation de l'espace disque commun (quota utilisateur)
  • pour les arborescences liées aux projets scientifiques (quota dit "de projet")

Ces quotas sont ajustables sur demande, une justification sera demandée à partir d'une certaine volumétrie.

La problématique du nombre de fichiers

Le CRIANN a fait le choix de conserver les dossiers temporaires des calculs (/dlocal/run/<jobid>) au delà de la vie des calculs. Ce dossier peut ainsi être utilisé comme dossier de travail du calcul suivant.

Ces dossiers sont supprimés automatiquement par le CRIANN, 40 jours après la fin du calcul correspondant. Cela a l'avantage de pouvoir permettre d'enchaîner plusieurs calculs et également de récupérer des données qui n'auraient pas été récupérées en fin de calcul.

Pour la majeure partie des utilisateurs, en 40 jours, cela correspond à quelques milliers de fichiers. Pour certains utilisateurs de logiciels spécifiques, cela peut représenter plusieurs dizaines de millions de fichiers. Le quota est là pour éviter une dérive, mais la soumission de nouveaux calculs devient impossible si le quota est dépassé : il faut donc faire du ménage en complément du ménage automatique...

Si vous avez des questions, merci de contacter le support : support@criann.fr


Dernière mise à jour: 11 septembre 2023 15:20:19