tokenizers 进度条在日志文件中不显示,

zqry0prt  于 4个月前  发布在  其他
关注(0)|答案(4)|浏览(78)

如果没有重定向到我的日志文件,那就没问题。

root@5b325f584bab:/data/project/# python -u ./src/tokenizing.py --vocab_size 20000
Processing:   2%|███▏                                                                                                                                                          | 458702/22828272 [00:31<25:29, 14628.06examples/s]
Training BPE:   0%|                                                                                                                                                                                       | 0/459 [00:00<?, ?it/s]
Training BPE: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 459/459 [00:38<00:00, 11.97it/s]
[00:00:41] Pre-processing sequences       ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 22828272 / 22828272
[00:03:46] Tokenize words                 ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:00:16] Count pairs                    ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:11:52] Compute merges                 ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 2        /    20000

但是如果我想在后端运行脚本并将其输出到日志文件,一些进度条会消失!

nohup python -u ./src/tokenizing.py --vocab_size 20000 > ./log/log.tokenizing &

输出如下:

Processing:   0%|          | 0/22828272 [00:00<?, ?examples/s]�[A

Processing:   0%|          | 1/22828272 [00:00<4290:40:29,  1.48examples/s]�[A

Processing:   0%|          | 3000/22828272 [00:00<1:13:41, 5162.61examples/s]�[A

Processing:   0%|          | 7551/22828272 [00:00<28:58, 13124.60examples/s] �[A
Processing:   0%|          | 9999/22828272 [00:00<36:39, 10376.33examples/s]0:00<00:06,  1.36it/s]
Training BPE:  50%|█████     | 5/10 [00:00<00:00,  7.65it/s]
Training BPE:  90%|█████████ | 9/10 [00:00<00:00, 13.73it/s]
Training BPE: 100%|██████████| 10/10 [00:00<00:00, 10.34it/s]

我真正想要做的是估计在我的数据集(约100G)上运行BPE算法的运行时间。如果我看不到进度条,我就不知道什么时候等待。

wlsrxk51

wlsrxk511#

你好!你是说数字已经更新了,但是条形图没有更新吗?😓

72qzrwbm

72qzrwbm2#

对不起,造成了误解。我的意思是这些行消失了:

[00:00:41] Pre-processing sequences       ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 22828272 / 22828272
[00:03:46] Tokenize words                 ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:00:16] Count pairs                    ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:11:52] Compute merges                 ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 2        /    20000

也许我认为原因是计算部分是用Rust编写的?

dldeef67

dldeef673#

这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。

hk8txs48

hk8txs484#

我认为它们只是被覆盖+错误的符号!

相关问题