Updating compute budget on JURECA/JSC (hwai) to the active one (#148)

JeniaJitsev · web-flow · commit 0c2089ad7b58 · 2025-12-22T11:25:48.000-08:00
* Update simple_jureca.sbatch

Updating compute budget account to the active one, westai0066

* Update process_shards_jureca.sbatch

Updating compute budget on hwai to the active one, westai0066

* Update SETUP_JURECA.md

Updating compute budget on hwai to the active one, westai0066
diff --git a/eval/distributed/SETUP_JURECA.md b/eval/distributed/SETUP_JURECA.md
@@ -88,7 +88,7 @@ huggingface-cli download mlfoundations-dev/evalset_2870 --repo-type dataset
 huggingface-cli download open-thoughts/OpenThinker-7B
 
 # Request an interactive node for testing
-salloc --nodes=1 --ntasks-per-node=1 --gres=gpu:1 --cpus-per-task=12 -p dc-hwai -A westai0007
+salloc --nodes=1 --ntasks-per-node=1 --gres=gpu:1 --cpus-per-task=12 -p dc-hwai -A westai0066
 
 # Verify GPU is available
 srun bash -c 'nvidia-smi'
diff --git a/eval/distributed/process_shards_jureca.sbatch b/eval/distributed/process_shards_jureca.sbatch
@@ -5,7 +5,7 @@
 #SBATCH --gres=gpu:1           
 #SBATCH --time=01:00:00        
 #SBATCH --cpus-per-task=12
-#SBATCH --account=westai0007
+#SBATCH --account=westai0066
 #SBATCH --partition=dc-hwai
 
 # ENVIRONMENT VARIABLES
@@ -23,4 +23,4 @@ export OUTPUT_DATASET="$DCFT_DATA/evalchemy_results/${MODEL_NAME##*--}_${INPUT_D
 
 # RUN SHARDED INFERENCE
 srun echo -e "GLOBAL_SIZE: ${GLOBAL_SIZE}\nRANK: ${RANK}\nMODEL: ${MODEL_NAME}\nINPUT_DATASET: ${INPUT_DATASET}\nOUTPUT_DATASET: ${OUTPUT_DATASET}"
-srun python $EVALCHEMY/eval/distributed/process_shard.py --global_size ${GLOBAL_SIZE} --rank ${RANK} --input_dataset ${INPUT_DATASET} --model_name ${MODEL_NAME} --output_dataset ${OUTPUT_DATASET}
+srun python $EVALCHEMY/eval/distributed/process_shard.py --global_size ${GLOBAL_SIZE} --rank ${RANK} --input_dataset ${INPUT_DATASET} --model_name ${MODEL_NAME} --output_dataset ${OUTPUT_DATASET}
diff --git a/eval/distributed/simple_jureca.sbatch b/eval/distributed/simple_jureca.sbatch
@@ -4,7 +4,7 @@
 #SBATCH --gres=gpu:4
 #SBATCH --time={time_limit}
 #SBATCH --cpus-per-task=12
-#SBATCH --account=westai0007
+#SBATCH --account=westai0066
 #SBATCH --partition=dc-hwai
 #SBATCH --job-name={job_name}
 #SBATCH --output={logs_dir}/%x_%j.out
@@ -25,4 +25,4 @@ OUTPUT_DATASET={output_dataset}
 
 # RUN SHARDED INFERENCE
 srun --output={logs_dir}/%x_%j_%t.out bash -c 'echo -e "GLOBAL_SIZE: ${SLURM_STEP_NUM_TASKS}\nRANK: ${SLURM_PROCID}\nMODEL: '$MODEL_NAME'\nINPUT_DATASET: '$INPUT_DATASET'\nOUTPUT_DATASET: '$OUTPUT_DATASET'"'
-srun --output={logs_dir}/%x_%j_%t.out bash -c 'CUDA_VISIBLE_DEVICES=${SLURM_LOCALID} python $EVALCHEMY/eval/distributed/process_shard.py --global_size ${SLURM_STEP_NUM_TASKS} --rank ${SLURM_PROCID} --input_dataset '${INPUT_DATASET}' --model_name '${MODEL_NAME}' --output_dataset '${OUTPUT_DATASET}''
+srun --output={logs_dir}/%x_%j_%t.out bash -c 'CUDA_VISIBLE_DEVICES=${SLURM_LOCALID} python $EVALCHEMY/eval/distributed/process_shard.py --global_size ${SLURM_STEP_NUM_TASKS} --rank ${SLURM_PROCID} --input_dataset '${INPUT_DATASET}' --model_name '${MODEL_NAME}' --output_dataset '${OUTPUT_DATASET}''