120 likes | 281 Views
Systém PBS na farmě goliáš Jan Švec <svecj@fzu.cz> 27.11.2003. Systém PBS (1). Portable batch system http://www.particle.cz/farm/dokumentace/pbs_user_guide.pdf tři základní komponenty: PBS server PBS mom PBS scheduler dočasné (scratch) adresáře na worker nodech
E N D
Systém PBS na farmě goliáš Jan Švec <svecj@fzu.cz> 27.11.2003
Systém PBS (1) • Portable batch system • http://www.particle.cz/farm/dokumentace/pbs_user_guide.pdf • tři základní komponenty: • PBS server • PBS mom • PBS scheduler • dočasné (scratch) adresáře na worker nodech • > přenos pomocí scp na storage (input, output, error)
Systém PBS (2) • OpenPBS 2.3.16 -> LCG • PBS server – ce.farm.particle.cz • PBS moms – golias28 – golias30 • PBSPro 5.2.2 -> zbytek farmy • PBS server – golias.farm.particle.cz • PBS moms – golias01 – golias24
pro daný experiment d0 atlas alice Struktura PBS na goliáši • řazení podle priorit • funguje na nově spouštěné joby • zatím nefunguje checkpointing • 6 front • obecné • shortq • normalq • longq
Management jobů • qsub - zadání jobu • qdel - smazání jobu • qstat - přehled běžících jobů • qalter - modifikace parametrů jobu • qorder - přehození jobů ve frontě • qmove - přesunutí jobu do jiné fronty • qhold/qrls -h - pozastavení/uvolnění jobu
Příklad zadání jobu 1) qsub -o $HOME/pbs_output -e $HOME/pbs_error -m abe \ -q shortq /home/svecj/jobs/pokus1.sh 2) qsub -o $HOME/pbs_output -e $HOME/pbs_error -m abe \ -q shortq -l nodes=4:giga:ppn=5:cpp=2 ~/jobs/pokus1.sh • ppn != processors per node ale processes per node • cpp=1 => 1 proces použije 1 CPU (1 proces může běžet 1 thread) • všechny vlastnosti jsou globálně nadefinovány ve frontách
Zjišťování informací o jobech (1) • příkaz qstat • stavy jobu: E-exiting, H-held, Q-queued, R-running, W-waiting for time, S-suspended • qstat -Q (příp. -Qf) - vypíše fronty, jejich vlastnosti a status • qstat -f <job> - vypíše podrobnosti o jobu • qstat -u <user> - vypíše joby daného uživatele • qstat -n - vypíše informace o přiřazení nodů jobům • volby je možno kombinovat: • qstat -u aliprod -n - vypíše obsazení nodů joby uživatele aliprod
Zjišťování informací o jobech (2) [svecj@golias pbs]$ qstat Job id Name User Time Use S Queue ---------------- ---------------- ---------------- -------- - ----- 20196.golias spustpok1 srbekj 00:00:20 R long 26079.golias cond_0.0_0.0_10 strizenec 113:09:5 S longq 26080.golias cond_0.0_0.0_10 strizenec 112:44:1 S longq 26083.golias cond_0.0_0.0_10 strizenec 111:59:5 S longq 26084.golias cond_0.0_0.0_10 strizenec 111:25:0 S longq 26085.golias cond_0.0_0.0_10 strizenec 86:39:58 S longq 26113.golias spust.rsd_test smolik 23:09:17 S longq 26116.golias spust.rsd_test smolik 21:53:32 S longq 26157.golias d0job15-2 d0mc 11:51:54 R d0 26158.golias d0job16-2 d0mc 07:12:14 R d0 26159.golias d0job17-2 d0mc 06:47:42 R d0 26160.golias d0job18-2 d0mc 03:58:40 R d0 26161.golias d0job19-2 d0mc 03:57:36 R d0 26162.golias d0job20-2 d0mc 03:30:50 R d0 26163.golias spust.rsd_test smolik 03:15:36 R longq 26164.golias spust.rsd_test smolik 02:14:29 R longq 26165.golias spust.rsd_test smolik 01:48:04 R longq 26166.golias spust.rsd_test smolik 01:44:27 R longq 26167.golias spust.rsd_test smolik 01:36:42 R longq 26168.golias spust.rsd_test smolik 00:55:39 R longq 26169.golias spust.rsd_test smolik 00:55:39 R longq 26170.golias spust.rsd_test smolik 00:55:38 R longq 26171.golias spust.rsd_test smolik 00:53:37 R longq