Differences

This shows you the differences between two versions of the page.

--- devel:cluster [2017/06/28 14:40] – papeleux
+++ devel:cluster [2017/06/28 15:58] – papeleux
@@ Line 134: / Line 134: @@
 <code>
 Actions:
- b/ exec name                           : '/home/papeleux/bin/Metafor'
+ b/ exec name                           : '../Metafor/Metafor'
- c/ test filename                       : './mesTests/monTest.py'
+ c/ test filename                       : './banc18ER/casingRotAnalysis/WingletBlade/Coarse3250Eas.py'
  d/ logfile (no ext)                    : 'out'
  e/ algorithm                           : 'meta'
  g/ Run multiple test on dir            : False
  j/ nb of task launched in parallel     : '1'
- k/ nb of threads by task               : '1'
+ k/ nb of threads by task               : '12'
  m/ Run Method                          : 'slurm'
  n/ Queue name                          : 'defq'
  o/ Metafor run on node local disk      : True
- p/ Total Memory (Mb)                   : '1000'
+ p/ Total Memory (Mb)                   : '5000'
  q/ Time (d-hh:mm:ss)                   : '0-1:00:00'
  u/ ftp transfert                       : False
@@ Line 152: / Line 152: @@
  Q/ QUIT
-Your choice?
 </code>
@@ Line 161: / Line 162: @@
 Metafor est capable d'utiliser le disque de chaque noeud comme répertoire de travail et de copier automatiquement les résultats une fois les simulations terminées ("''o/ Metafor run on node local disk   : True''"). Sauf utilisation particulière ne supportant pas ce mécanisme (restart), utilisez toujours cette option (ca réduit le trafic sur le réseau interne au cluster et limite le risque de corruption des fichiers ouverts à travers le NFS).
-<note warning>
+Soyez attentif aux paramètres de mémoire ( "''p/ Total Memory (Mb)                   : '1000' ''")
-ATTENTION : A ce jour, la configuration des queues via SGE ou le script de lancement des calculs généré par launch.py permet de lancer plusieures tâches en même temps, MAIS seul 1 job tournera effectivement.\\
+et de temps de calcul demandés ("''q/ Time (d-hh:mm:ss)                   : '0-1:00:00' ''"), tout dépassement entrainant l'arrêt instantanné des simulations (et pensez aux programmes annexes : un appel à Matlab en post-traitement pouvant faire croitre de manière importante la mémoire...). D'autre part, Slurm calcule une priorité de lancement des jobs en fonction des ressources demandées => une sur-estimation excessive des ressources pourrait induire un temps d'attente important avant lancement du job (si tous les noeuds sont occupés et que de plus petit jobs sont dans la queue).
-Conclusion : ne demandez pas plus d'1 tâche à la fois par ''launch.py'' \\
+Une fois que le job est lancé, ("''G''") les messages suivant sont affichés
 <code>
-   j/ nb of task launched in parallel     : '1'
+Your choice? go in slurm
+sending job 'Tests.banc18ER.casingRotAnalysis.WingletBlade.Coarse3250Eas' to Slurm
+Submitted batch job 450
+Submission SUCCESSFUL!
+        use ' squeue -l -j 450 ' to check the status of the SLURM scheduling queue of your job
+        use ' sprio -l -j 450 ' to check the factor priority of your job
+        use ' sstat  -a --format=JobID,NTasks,MaxRSS,MaxVMSize -j 450 ' to get information about your running job (adapt format to your needs)
+        use ' scancel 450 ' to kill your job
+        use ' sacct --format=JobID,NTasks,NCPUS,CPUTime,Elapsed,MaxRSS,MaxVMSize -j 450 ' to get information about your finished job (adapt format to your needs)
+[papeleux@fabulous Tests]$
 </code>
-(=> splittez vos tests dans plusieurs répértoires et faites plusieurs commandes launch ...)
-</note>
-Une fois que le job est lancé, il est possible de voir le statut de la queue et du job en faisant:
-  qstat -f
-Voilà ce que ça peut donner:
 <code>
-boman@fabulous:~/dev >qstat -f
+  squeue -l
-queuename                      qtype resv/used/tot. load_avg arch          states
+</code>
----------------------------------------------------------------------------------
-all.q@node001.cm.cluster       BIP   0/5/12         4.86     lx26-amd64
-0.58500 fullblade7 boman        r     05/17/2011 12:23:32     5
----------------------------------------------------------------------------------
-all.q@node002.cm.cluster       BIP   0/0/12         0.00     lx26-amd64
----------------------------------------------------------------------------------
-all.q@node003.cm.cluster       BIP   0/1/12         1.00     lx26-amd64
-0.50500 barbara04f boman        r     05/17/2011 11:24:17     1
----------------------------------------------------------------------------------
-all.q@node004.cm.cluster       BIP   0/4/12         3.92     lx26-amd64
-0.56500 fullblade7 boman        r     05/17/2011 12:23:47     4
----------------------------------------------------------------------------------
-all.q@node005.cm.cluster       BIP   0/3/12         2.90     lx26-amd64
-0.54500 fullblade7 boman        r     05/17/2011 12:24:02     3
----------------------------------------------------------------------------------
-all.q@node006.cm.cluster       BIP   0/0/12         0.00     lx26-amd64
----------------------------------------------------------------------------------
-all.q@node007.cm.cluster       BIP   0/1/12         1.00     lx26-amd64
-0.50500 fullblade7 boman        r     05/17/2011 12:24:32     1
----------------------------------------------------------------------------------
-all.q@node008.cm.cluster       BIP   0/0/12         0.02     lx26-amd64
----------------------------------------------------------------------------------
-all.q@node009.cm.cluster       BIP   0/0/12         0.25     lx26-amd64
----------------------------------------------------------------------------------
-all.q@node010.cm.cluster       BIP   0/2/12         2.01     lx26-amd64
-0.52500 fullblade7 boman        r     05/17/2011 12:24:17     2
----------------------------------------------------------------------------------
-all.q@node011.cm.cluster       BIP   0/6/12         5.68     lx26-amd64
-0.60500 fullblade7 boman        r     05/17/2011 12:17:47     6
----------------------------------------------------------------------------------
-all.q@node012.cm.cluster       BIP   0/0/12         0.15     lx26-amd64
-############################################################################
+Voilà ce que ça peut donner:
- - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS
+<code> squeue -l
-############################################################################
+Wed Jun 28 15:24:19 2017
-0.00000 dev.batter boman        qw    05/17/2011 16:45:02    12
+  JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
+      defq  metafor wautelet  RUNNING 16-15:00:54 20-00:00:00      1 node001
 </code>
-Pour voir tous les jobs gérés par SGE pour tous les utilisateurs:
+pour plus d'info sur les commandes Slurm : [[devel:slurm|]]
-  qstat -u '*'
-Pour voir les nom complet de vos jobs gérés par SGE:
-  qstat -r | grep "Full jobname" -B1
-Pour supprimer son job avant la fin, il suffit de repérer son numéro par "''qstat''" et de faire
-  qdel [numero]
 Des mails sont envoyés par SGE pour signaler le démarrage, le kill ou la fin du job.
@@ Line 231: / Line 207: @@
 Nb : le script ''cleanLocalHdd.py'' (inclus dans le répository ''~/bin'') vous permet de voir si vous avez des fichiers trainant sur vos disques locaux et de les nettoyer . Tapez  "''cleanLocalHdd.py --help''" pour plus d'info ...
+Nb2 : Les noeuds de calcul n'ayant pas accès à internet, il n'est pas possible pour eux d'acquérir des licences réseau (type FlexLm ou RLM). Tenez en compte, par exemple pour Samcef en baconnant vos tests préalablement et en copiant le fichier *.fdb à coté du *.dat (Metafor lisant directement le fdb).
 Pour plus d'infos sur SGE: [[http://wikis.sun.com/display/gridengine62u5/Home|Doc Oracle de SGE]]