unilm 在markuplm中,我应该如何使用分布式训练?

oxosxuxt  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(22)

你好,我有8个GPU,我应该如何使用分布式训练?

oxf4rvwz

oxf4rvwz1#

@shenxinyu666 你是说分布式微调吗?

wribegjk

wribegjk2#

感谢您的回复。是的,我应该使用哪种脚本进行多GPU训练?例如,'CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node 2 run.py --root_dir /Path/To/Processed_SWDE --vertical nbaplayer --n_seed 1 --n_pages 2000 --prev_nodes_into_account 4 --model_name_or_path microsoft/markuplm-base --output_dir /Your/Output/Path --do_train --do_eval --per_gpu_train_batch_size 32 --per_gpu_eval_batch_size 32 --num_train_epochs 10 --learning_rate 2e-5 --save_steps 1000000 --warmup_ratio 0.1 --overwrite_output_dir --fp16 --fp16_opt_level O2'',但是我使用这个脚本,程序无法运行,您能提供一个多GPU分布式训练脚本吗?再次感谢您。

相关问题