Differences

This shows you the differences between two versions of the page.

--- devel:cluster [2017/06/28 14:40] – papeleux
+++ devel:cluster [2017/06/28 16:14] (current) – papeleux
@@ Line 134: / Line 134: @@
 <code>
 Actions:
- b/ exec name                           : '/home/papeleux/bin/Metafor'
+ b/ exec name                           : '../Metafor/Metafor'
- c/ test filename                       : './mesTests/monTest.py'
+ c/ test filename                       : './banc18ER/casingRotAnalysis/WingletBlade/Coarse3250Eas.py'
  d/ logfile (no ext)                    : 'out'
  e/ algorithm                           : 'meta'
  g/ Run multiple test on dir            : False
  j/ nb of task launched in parallel     : '1'
- k/ nb of threads by task               : '1'
+ k/ nb of threads by task               : '12'
  m/ Run Method                          : 'slurm'
  n/ Queue name                          : 'defq'
  o/ Metafor run on node local disk      : True
- p/ Total Memory (Mb)                   : '1000'
+ p/ Total Memory (Mb)                   : '5000'
  q/ Time (d-hh:mm:ss)                   : '0-1:00:00'
  u/ ftp transfert                       : False
@@ Line 152: / Line 152: @@
  Q/ QUIT
-Your choice?
 </code>
@@ Line 161: / Line 162: @@
 Metafor est capable d'utiliser le disque de chaque noeud comme répertoire de travail et de copier automatiquement les résultats une fois les simulations terminées ("''o/ Metafor run on node local disk   : True''"). Sauf utilisation particulière ne supportant pas ce mécanisme (restart), utilisez toujours cette option (ca réduit le trafic sur le réseau interne au cluster et limite le risque de corruption des fichiers ouverts à travers le NFS).
-<note warning>
+Soyez attentif aux paramètres de mémoire ( "''p/ Total Memory (Mb)                   : '1000' ''")
-ATTENTION : A ce jour, la configuration des queues via SGE ou le script de lancement des calculs généré par launch.py permet de lancer plusieures tâches en même temps, MAIS seul 1 job tournera effectivement.\\
+et de temps de calcul demandés ("''q/ Time (d-hh:mm:ss)                   : '0-1:00:00' ''"), tout dépassement entrainant l'arrêt instantanné des simulations (et pensez aux programmes annexes : un appel à Matlab en post-traitement pouvant faire croitre de manière importante la mémoire...). D'autre part, Slurm peut calculer une priorité de lancement des jobs en fonction des ressources demandées => une sur-estimation excessive des ressources pourrait induire un temps d'attente important avant lancement du job (si tous les noeuds sont occupés et que de plus petit jobs sont dans la queue).
-Conclusion : ne demandez pas plus d'1 tâche à la fois par ''launch.py'' \\
-<code>
-   j/ nb of task launched in parallel     : '1'
-</code>
-(=> splittez vos tests dans plusieurs répértoires et faites plusieurs commandes launch ...)
-</note>
-Une fois que le job est lancé, il est possible de voir le statut de la queue et du job en faisant:
+Une fois que le job est lancé, ("''G''") les messages suivant sont affichés
-  qstat -f
-Voilà ce que ça peut donner:
 <code>
-boman@fabulous:~/dev >qstat -f
+Your choice? go in slurm
-queuename                      qtype resv/used/tot. load_avg arch          states
+sending job 'Tests.banc18ER.casingRotAnalysis.WingletBlade.Coarse3250Eas' to Slurm
----------------------------------------------------------------------------------
+Submitted batch job 451
-all.q@node001.cm.cluster       BIP   0/5/12         4.86     lx26-amd64
+Submission SUCCESSFUL!
-0.58500 fullblade7 boman        r     05/17/2011 12:23:32     5
+        use ' squeue -l -j 451 ' to check the status of the SLURM scheduling queue of your job
----------------------------------------------------------------------------------
+        use ' sprio -l -j 451 ' to check the factor priority of your job
-all.q@node002.cm.cluster       BIP   0/0/12         0.00     lx26-amd64
+        use ' sstat  -a --format=JobID,NTasks,MaxRSS,MaxVMSize -j 451 ' to get information about your running job (adapt format to your needs)
----------------------------------------------------------------------------------
+        use ' scancel 451 ' to kill your job
-all.q@node003.cm.cluster       BIP   0/1/12         1.00     lx26-amd64
+        use ' sacct --format=JobID,NTasks,NCPUS,CPUTime,Elapsed,MaxRSS,MaxVMSize -j 451 ' to get information about your finished job (adapt format to your needs)
-0.50500 barbara04f boman        r     05/17/2011 11:24:17     1
+</code>
----------------------------------------------------------------------------------
-all.q@node004.cm.cluster       BIP   0/4/12         3.92     lx26-amd64
-0.56500 fullblade7 boman        r     05/17/2011 12:23:47     4
----------------------------------------------------------------------------------
-all.q@node005.cm.cluster       BIP   0/3/12         2.90     lx26-amd64
-0.54500 fullblade7 boman        r     05/17/2011 12:24:02     3
----------------------------------------------------------------------------------
-all.q@node006.cm.cluster       BIP   0/0/12         0.00     lx26-amd64
----------------------------------------------------------------------------------
-all.q@node007.cm.cluster       BIP   0/1/12         1.00     lx26-amd64
-0.50500 fullblade7 boman        r     05/17/2011 12:24:32     1
----------------------------------------------------------------------------------
-all.q@node008.cm.cluster       BIP   0/0/12         0.02     lx26-amd64
----------------------------------------------------------------------------------
-all.q@node009.cm.cluster       BIP   0/0/12         0.25     lx26-amd64
----------------------------------------------------------------------------------
-all.q@node010.cm.cluster       BIP   0/2/12         2.01     lx26-amd64
-0.52500 fullblade7 boman        r     05/17/2011 12:24:17     2
----------------------------------------------------------------------------------
-all.q@node011.cm.cluster       BIP   0/6/12         5.68     lx26-amd64
-0.60500 fullblade7 boman        r     05/17/2011 12:17:47     6
----------------------------------------------------------------------------------
-all.q@node012.cm.cluster       BIP   0/0/12         0.15     lx26-amd64
-############################################################################
+squeue donne des informations sur les jobs dans les queues :
- - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS
+pour mon job en particulier :
-############################################################################
+<code>
- 0.00000 dev.batter boman        qw    05/17/2011 16:45:02    12
+squeue -al -j 451
+Wed Jun 28 16:08:43 2017
+  JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
+      defq  metafor papeleux  RUNNING       2:58   1:00:00      1 node002
+</code>
+ou pour tous les jobs :
+<code>
+squeue -l
+Wed Jun 28 16:05:54 2017
+  JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
+      defq  metafor wautelet  RUNNING 16-15:42:29 20-00:00:00      1 node001
+      defq  metafor papeleux  RUNNING       0:09   1:00:00      1 node002
+</code>
+Les outputs de sprio (actuellement pas de calcul de priorité des jobs => premier arrivé, premier servis)
+<code>
+sprio -l
+You are not running a supported priority plugin
+(priority/basic).
+Only 'priority/multifactor' is supported.
+sstat  -a --format=JobID,NTasks,MaxRSS,MaxVMSize -j 451
+       JobID   NTasks     MaxRSS  MaxVMSize
+------------ -------- ---------- ----------
+sstat: WARNING: We will use a much slower algorithm with proctrack/pgid, use Proctracktype=proctrack/linuxproc or Proctracktype=proctrack/rms with Job accounting gather LINUX plugin
+.0               1    269096K   2142528K
 </code>
-Pour voir tous les jobs gérés par SGE pour tous les utilisateurs:
-  qstat -u '*'
-Pour voir les nom complet de vos jobs gérés par SGE:
-  qstat -r | grep "Full jobname" -B1
-Pour supprimer son job avant la fin, il suffit de repérer son numéro par "''qstat''" et de faire
-  qdel [numero]
-Des mails sont envoyés par SGE pour signaler le démarrage, le kill ou la fin du job.
-Au lancement de jobs à travers "''launch.py''", une série de scripts de gestion sont générés associés au numéro sge du process 'sgePid':
+pour plus d'info sur les commandes Slurm, lire [[devel:slurm|]] (basé sur NIC4 dont la config de slurm est plus aboutie).
-  qDelxxxx.py : permet de killer un job (Attention, cette commande ne gère pas la copie et suppression des fichiers temporaires de calcul sur le disque du noeud de calcul)
+Des mails sont envoyés par Slurm pour signaler le démarrage, le kill ou la fin du job.
+Au lancement de jobs à travers "''launch.py''", une série de scripts de gestion sont générés associés au pid dans la queue slurm :
+  sCancelxxxx.py : permet de killer un job (Attention, cette commande ne gère pas la copie et suppression des fichiers temporaires de calcul sur le disque du noeud de calcul)
   cpNodeResultsxxxx.py : copie les fichiers du disque du noeud de calcul (''/local/$USER_pxxxx'') vers le disque courant (/home/$USERS/...)
   rmNodeResultsxxxx.py : nettoye le disque du noeud de calcul des fichiers du process xxxx (''rm -rf /local/$USER_pxxxx'')
@@ Line 231: / Line 222: @@
 Nb : le script ''cleanLocalHdd.py'' (inclus dans le répository ''~/bin'') vous permet de voir si vous avez des fichiers trainant sur vos disques locaux et de les nettoyer . Tapez  "''cleanLocalHdd.py --help''" pour plus d'info ...
+Nb2 : Les noeuds de calcul n'ayant pas accès à internet, il n'est pas possible pour eux d'acquérir des licences réseau (type FlexLm ou RLM). Tenez en compte, par exemple pour Samcef en baconnant vos tests préalablement et en copiant le fichier *.fdb à coté du *.dat (Metafor lisant directement le fdb).
 Pour plus d'infos sur SGE: [[http://wikis.sun.com/display/gridengine62u5/Home|Doc Oracle de SGE]]