python-3.x 不同的标记化器为相同的标记提供相同的input_id

yh2wf1be 于 2023-03-04 发布在 Python

关注(0)|答案(1)|浏览(134)

我正在训练一个记号化器，并使用huggingface作为预先训练的模型。我使用XLM-roberta-base训练记号化器，它给记号“size”输入id = 224。当我用另一个记号化器改变XLM-roberta-base时，它也给记号“size”输入id = 224。这正常吗？它不应该给记号不同的ID吗？我的意思是发生这种情况的几率有多大？

pretrained_tokenizer = AutoTokenizer.from_pretrained('some tokenizer')
vocab_size = 52_000
tokenizer = pretrained_tokenizer.train_new_from_iterator(training_corpus, vocab_size)

txt = 'merhaba size hatta merhabalar size'
tokense = tokenizer(txt)['input_ids']
    ==>[0, 1353, 224, 16616, 9361, 224, 2]

pretrained_tokenizer = AutoTokenizer.from_pretrained('some another tokenizer')
vocab_size = 52_000
tokenizer = pretrained_tokenizer.train_new_from_iterator(training_corpus, vocab_size)

txt = 'merhaba size hatta merhabalar size'
tokense = tokenizer(txt)['input_ids']
    ==>[0, 1353, 224, 16616, 9361, 224, 2]

两个身份证是一样的，我认为这是不对的。

python-3.x

来源：https://stackoverflow.com/questions/75605822/different-tokenizers-gives-the-same-input-ids-to-same-tokens