在使用tf_hub BERT模型进行训练时,使用TPU经常会出现崩溃的情况。
根据我的数据集,有时可以正常运行,有时则不行,这取决于--save_checkpoints_steps
参数。
要重现这个问题,请使用"Predicting Movie Reviews with BERT on TF Hub"的colab笔记本,选择TPU运行时,使用某个存储桶来存储数据,使用500个训练/测试示例(仅为了加快速度),并将run_config
单元格替换为:
然后运行训练单元格,它应该会因为上述错误而崩溃。
完整的单元格输出如下:
1条答案
按热度按时间dxpyg8gm1#
这个问题是由于在使用 TensorFlow Hub 时,文件系统方案 '[local]' 没有实现导致的。你可以尝试将本地文件系统中的模型文件转换为 HDF5 格式,然后在 TensorFlow Hub 中使用 HDF5 格式的模型文件。以下是将模型文件转换为 HDF5 格式的方法:
tensorflow
和h5py
库。如果没有安装,可以使用以下命令进行安装:model.pb
)转换为 HDF5 格式(例如model.h5
):