Spouštění úloh na Laniakea
Na výpočetním clusteru Laniakea nelze spouštět výpočetní úlohy přímo ale místo toho musí uživatel použít systém Slurm. Systém Slurm obstarává přidělování výpočetních úkolů k jednotlivým nebo ke skupině výpočetních uzlů. Slurm vybírá dostupné úkoly z fronty úkolů. Ve chvíli kdy chce uživatel spustit svůj výpočetní úkol musí ho nejprve zařadit do fronty a čekat až systém Slurm najde volné výpočetní kapacity.
Aby systém Slurm vědel jaké požadavky uživatel má, musíme napsat tzv. sbatch script. Skript vhodný pro Laniakea vypadá takto:
#!/bin/bash
# Pozadovana konfigurace vypocetniho uzlu
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=320
# Volba pozadovane casti Laniakea clusteru
#SBATCH --partition=Virgo_A
# Jmeno vypocetniho ukolu
#SBATCH --job-name=pytorchtest
# prikazy do prikazove radky
# vzdy je dobre si vypsat verze pouziteho softwaru
python3 --version
# Spusteni vaseho vypocetniho ukolu
python3 muj_skript.py
Co je co v Slurm skriptu
První řádek informuje systém jaký interpretér má použít. Tohle nelze měnit.
#!/bin/bash
Další část
# Pozadovana konfigurace vypocetniho uzlu
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=320
určuje kolik výpočetních kapacit vaše úloha vyžaduje. Počet uzlů --nodes=1 budete potřebovat, počet úkolů --ntasks=1 které budou běžet zároveň a kolik jader --cpus-per-task=320 potřebujete.
Tyto nastavení neměnte pokud se predem nedomluvíte s administrátory Laniakea clusteru.
Různé části Laniakea clusteru můžete zvolit pomocí --partition=Virgo_A. Část Laniakea clusteru se jménem Virgo_A je určena pro AI výpočty. Opět partition neměnte pokud se nedomluvíte s administrátory Laniakea clusteru.
Pokud budete měnit nastavení v sbatch scriptu může se stát že vaše úloha bude zařazena do fronty ale protože pro ni nebude vhodný výpočetní uzel bude ve frontě velmi dlouho nebo navždy.
Následující část
# Jmeno vypocetniho ukolu
#SBATCH --job-name=pytorchtest
# prikazy do prikazove radky
# vzdy je dobre si vypsat verze pouziteho softwaru
python3 --version
# Spusteni vaseho vypocetniho ukolu
python3 muj_skript.py
už můžete měnit jak bude potřeba. Vždy je dobré nastavit si jméno úlohy --job-name=pytorchtest kterou počítáte ať ve chvíli kdy se budete dívat na Slurm frontu víte co je co.
Dále je vždy dobré vypsat si verze použitého softwaru. Posledním krokem je spuštění vaší úlohy.