描述bug
为训练添加标志--skip_save_model会导致最终的指标不同
重现方法
重现行为的步骤:
model_type: gbm
input_features:
- name: age
type: number
output_features:
- name: income
type: binary
docker run --gpus all -i -t --rm ludwigai/ludwig-ray-gpu:0.8.4 /bin/bash
ludwig train --config ludwig.yaml --dataset ludwig://adult_census_income --random_seed 1
产生
╒═════════════════════════════════╤════════════════════╕
│ Validation feature │ income │
├─────────────────────────────────┼────────────────────┤
│ Validation metric │ roc_auc │
├─────────────────────────────────┼────────────────────┤
│ Best model step │ 50 │
├─────────────────────────────────┼────────────────────┤
│ Best model epoch │ 1 │
├─────────────────────────────────┼────────────────────┤
│ Best model's validation roc_auc │ 0.7122949361801147 │
├─────────────────────────────────┼────────────────────┤
│ Best model's test roc_auc │ 0.7052067518234253 │
╘═════════════════════════════════╧════════════════════╛
和
ludwig train --config ludwig.yaml --dataset ludwig://adult_census_income --random_seed 1 --skip_save_model
产生
╒═════════════════════════════════╤════════════════════╕
│ Validation feature │ income │
├─────────────────────────────────┼────────────────────┤
│ Validation metric │ roc_auc │
├─────────────────────────────────┼────────────────────┤
│ Best model step │ 250 │
├─────────────────────────────────┼────────────────────┤
│ Best model epoch │ 5 │
├─────────────────────────────────┼────────────────────┤
│ Best model's validation roc_auc │ 0.7126029133796692 │
├─────────────────────────────────┼────────────────────┤
│ Best model's test roc_auc │ 0.7061160802841187 │
╘═════════════════════════════════╧════════════════════╛
预期行为
AUC不应该改变
环境信息(请填写以下信息):
- ludwigai/ludwig-ray-gpu:0.8.4
2条答案
按热度按时间neskvpey1#
你好,@MarselScheer,感谢你提出这个问题!我会尽力追踪这个问题。
bcs8qyzn2#
你好,@MarselScheer,我能够复现这个问题。LightGBM GPU训练似乎不稳定,无论是否使用
skip_save_model
。我正在研究是否固定一个较早版本的lightgbm可以解决这个问题。