我正在训练一个记号化器,并使用huggingface作为预先训练的模型。我使用XLM-roberta-base训练记号化器,它给记号“size”输入id = 224。当我用另一个记号化器改变XLM-roberta-base时,它也给记号“size”输入id = 224。这正常吗?它不应该给记号不同的ID吗?我的意思是发生这种情况的几率有多大?
pretrained_tokenizer = AutoTokenizer.from_pretrained('some tokenizer')
vocab_size = 52_000
tokenizer = pretrained_tokenizer.train_new_from_iterator(training_corpus, vocab_size)
txt = 'merhaba size hatta merhabalar size'
tokense = tokenizer(txt)['input_ids']
==>[0, 1353, 224, 16616, 9361, 224, 2]
pretrained_tokenizer = AutoTokenizer.from_pretrained('some another tokenizer')
vocab_size = 52_000
tokenizer = pretrained_tokenizer.train_new_from_iterator(training_corpus, vocab_size)
txt = 'merhaba size hatta merhabalar size'
tokense = tokenizer(txt)['input_ids']
==>[0, 1353, 224, 16616, 9361, 224, 2]
两个身份证是一样的,我认为这是不对的。
1条答案
按热度按时间sgtfey8w1#
谢谢alvas。在我的例子中,即使标记器的名字不同,他们都使用相同的模型训练,所以我认为这就是为什么得到相同的id的原因。谢谢你的帮助。