Metafor

ULiege - Aerospace & Mechanical Engineering

User Tools

Site Tools


devel:cluster

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
devel:cluster [2017/06/28 15:58] papeleuxdevel:cluster [2017/06/28 16:14] (current) papeleux
Line 163: Line 163:
  
 Soyez attentif aux paramètres de mémoire ( "''p/ Total Memory (Mb)                   : '1000' ''") Soyez attentif aux paramètres de mémoire ( "''p/ Total Memory (Mb)                   : '1000' ''")
-et de temps de calcul demandés ("''q/ Time (d-hh:mm:ss)                   : '0-1:00:00' ''"), tout dépassement entrainant l'arrêt instantanné des simulations (et pensez aux programmes annexes : un appel à Matlab en post-traitement pouvant faire croitre de manière importante la mémoire...). D'autre part, Slurm calcule une priorité de lancement des jobs en fonction des ressources demandées => une sur-estimation excessive des ressources pourrait induire un temps d'attente important avant lancement du job (si tous les noeuds sont occupés et que de plus petit jobs sont dans la queue). +et de temps de calcul demandés ("''q/ Time (d-hh:mm:ss)                   : '0-1:00:00' ''"), tout dépassement entrainant l'arrêt instantanné des simulations (et pensez aux programmes annexes : un appel à Matlab en post-traitement pouvant faire croitre de manière importante la mémoire...). D'autre part, Slurm peut calculer une priorité de lancement des jobs en fonction des ressources demandées => une sur-estimation excessive des ressources pourrait induire un temps d'attente important avant lancement du job (si tous les noeuds sont occupés et que de plus petit jobs sont dans la queue). 
  
 Une fois que le job est lancé, ("''G''") les messages suivant sont affichés  Une fois que le job est lancé, ("''G''") les messages suivant sont affichés 
Line 169: Line 169:
 Your choice? go in slurm Your choice? go in slurm
 sending job 'Tests.banc18ER.casingRotAnalysis.WingletBlade.Coarse3250Eas' to Slurm sending job 'Tests.banc18ER.casingRotAnalysis.WingletBlade.Coarse3250Eas' to Slurm
-Submitted batch job 450+Submitted batch job 451
 Submission SUCCESSFUL! Submission SUCCESSFUL!
-        use ' squeue -l -j 450 ' to check the status of the SLURM scheduling queue of your job +        use ' squeue -l -j 451 ' to check the status of the SLURM scheduling queue of your job 
-        use ' sprio -l -j 450 ' to check the factor priority of your job +        use ' sprio -l -j 451 ' to check the factor priority of your job 
-        use ' sstat  -a --format=JobID,NTasks,MaxRSS,MaxVMSize -j 450 ' to get information about your running job (adapt format to your needs) +        use ' sstat  -a --format=JobID,NTasks,MaxRSS,MaxVMSize -j 451 ' to get information about your running job (adapt format to your needs) 
-        use ' scancel 450 ' to kill your job +        use ' scancel 451 ' to kill your job 
-        use ' sacct --format=JobID,NTasks,NCPUS,CPUTime,Elapsed,MaxRSS,MaxVMSize -j 450 ' to get information about your finished job (adapt format to your needs) +        use ' sacct --format=JobID,NTasks,NCPUS,CPUTime,Elapsed,MaxRSS,MaxVMSize -j 451 ' to get information about your finished job (adapt format to your needs) 
-[papeleux@fabulous Tests]$ +</code>        
-</code>+
  
 +squeue donne des informations sur les jobs dans les queues : 
 +pour mon job en particulier :
 +<code>        
 +squeue -al -j 451
 +Wed Jun 28 16:08:43 2017
 +  JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
 +    451      defq  metafor papeleux  RUNNING       2:58   1:00:00      1 node002    
 +</code>        
 +ou pour tous les jobs : 
 +<code>        
 +squeue -l 
 +Wed Jun 28 16:05:54 2017
 +  JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
 +    418      defq  metafor wautelet  RUNNING 16-15:42:29 20-00:00:00      1 node001
 +    451      defq  metafor papeleux  RUNNING       0:09   1:00:00      1 node002
 +</code>    
  
 +Les outputs de sprio (actuellement pas de calcul de priorité des jobs => premier arrivé, premier servis)
 <code> <code>
-  squeue -l +sprio -l 
 +You are not running a supported priority plugin 
 +(priority/basic). 
 +Only 'priority/multifactor' is supported. 
 +sstat  -a --format=JobID,NTasks,MaxRSS,MaxVMSize -j 451 
 +       JobID   NTasks     MaxRSS  MaxVMSize 
 +------------ -------- ---------- ---------- 
 +sstat: WARNING: We will use a much slower algorithm with proctrack/pgid, use Proctracktype=proctrack/linuxproc or Proctracktype=proctrack/rms with Job accounting gather LINUX plugin 
 +451.0                  269096K   2142528K
 </code> </code>
- 
-Voilà ce que ça peut donner: 
-<code> squeue -l 
-Wed Jun 28 15:24:19 2017 
-  JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON) 
-    418      defq  metafor wautelet  RUNNING 16-15:00:54 20-00:00:00      1 node001 
-</code> 
- 
-pour plus d'info sur les commandes Slurm : [[devel:slurm|]] 
- 
  
  
 +pour plus d'info sur les commandes Slurm, lire [[devel:slurm|]] (basé sur NIC4 dont la config de slurm est plus aboutie).
  
-Des mails sont envoyés par SGE pour signaler le démarrage, le kill ou la fin du job. +Des mails sont envoyés par Slurm pour signaler le démarrage, le kill ou la fin du job. 
  
-Au lancement de jobs à travers "''launch.py''", une série de scripts de gestion sont générés associés au numéro sge du process 'sgePid'+Au lancement de jobs à travers "''launch.py''", une série de scripts de gestion sont générés associés au pid dans la queue slurm 
  
-  qDelxxxx.py : permet de killer un job (Attention, cette commande ne gère pas la copie et suppression des fichiers temporaires de calcul sur le disque du noeud de calcul)+  sCancelxxxx.py : permet de killer un job (Attention, cette commande ne gère pas la copie et suppression des fichiers temporaires de calcul sur le disque du noeud de calcul)
   cpNodeResultsxxxx.py : copie les fichiers du disque du noeud de calcul (''/local/$USER_pxxxx'') vers le disque courant (/home/$USERS/...)   cpNodeResultsxxxx.py : copie les fichiers du disque du noeud de calcul (''/local/$USER_pxxxx'') vers le disque courant (/home/$USERS/...)
   rmNodeResultsxxxx.py : nettoye le disque du noeud de calcul des fichiers du process xxxx (''rm -rf /local/$USER_pxxxx'')   rmNodeResultsxxxx.py : nettoye le disque du noeud de calcul des fichiers du process xxxx (''rm -rf /local/$USER_pxxxx'')
devel/cluster.1498658318.txt.gz · Last modified: 2017/06/28 15:58 by papeleux

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki