ludwig Ray训练的AlexNet模型性能比本地训练的差,

jqjz2hbq 于 2个月前发布在其他

关注(0)|答案(1)|浏览(27)

我正在为图像分类问题训练一个AlexNet编码器。与本地训练或num_workers=1的ray相比，使用ray后端和num_workers=4的模型性能更差。

我根据MNIST示例创建了一个测试用例。测试数据包含300个MNIST图像(每个数字7、8和9的100张图片)。

以下是程序输出：
(a) 本地后端 - 模型正确预测了30中的28张。
(b) num_workers=1的ray - 模型正确预测了30中的26张。
(c) num_workers=4的ray - 模型正确预测了30中的10张，且预测结果似乎保持不变。
在(c)的情况下，增加epochs有时会得到更好的结果，而其他时候结果与(c)相同。"horovod"略优于"ddp",num_workers=2的结果优于4,但不如(a)或(b)。
运行在kubernetes容器上
版本：
python 3.8.16
ludwig 0.8.2
ray 2.3.1
torch 2.0.1
horovod 0.28.1

ludwig

来源：https://github.com/ludwig-ai/ludwig/issues/3790