鉴于transformers库包含了更快的分词器,这些分词器在批处理中可能运行得更快,我认为我们可以在PretrainedTransformerTokenizer中实现batch_tokenize,这样它会调用batch_encode_plus。
PretrainedTransformerTokenizer
batch_tokenize
batch_encode_plus
lymnna711#
听起来不错,PR欢迎。不过这是否需要等到我们更新对transformers的依赖?
tyu7yeag2#
它没有,因为接口是相同的。
inb24sb23#
我并不确信新的分词器在批处理中能实现速度提升,但它测试起来很快。在投入时间之前,我想确保它是值得的。
zsbz8rwp4#
从代码🤷♂️https://github.com/huggingface/tokenizers/blob/11dd6c8baef9ae2b836d594215f14a208dbacfb2/tokenizers/src/tokenizer/mod.rs#L364
看起来是关于一个名为tokenizers的项目的代码。
tokenizers
p8ekf7hl5#
多线程分词。我考虑到Amdahl's Law,但我也认为这可能是值得的,至少如果它没有API更改的话。
r6vfmomb6#
如果1)你的整个数据集可以放入内存(你也可以发送块),并且2)你整体进行分词,这将会产生很大的影响。
hpxqektj7#
(你有很多核心...)
7条答案
按热度按时间lymnna711#
听起来不错,PR欢迎。不过这是否需要等到我们更新对transformers的依赖?
tyu7yeag2#
它没有,因为接口是相同的。
inb24sb23#
我并不确信新的分词器在批处理中能实现速度提升,但它测试起来很快。在投入时间之前,我想确保它是值得的。
zsbz8rwp4#
从代码🤷♂️
https://github.com/huggingface/tokenizers/blob/11dd6c8baef9ae2b836d594215f14a208dbacfb2/tokenizers/src/tokenizer/mod.rs#L364
看起来是关于一个名为
tokenizers
的项目的代码。p8ekf7hl5#
多线程分词。我考虑到Amdahl's Law,但我也认为这可能是值得的,至少如果它没有API更改的话。
r6vfmomb6#
如果1)你的整个数据集可以放入内存(你也可以发送块),并且2)你整体进行分词,这将会产生很大的影响。
hpxqektj7#
(你有很多核心...)