tokenizers 预训练的分词器Fast char_to_token token_to_char 工作不如预期,

rkue9o1l  于 6个月前  发布在  其他
关注(0)|答案(4)|浏览(148)

系统信息

  • transformers 版本:4.44.0
  • 平台:macOS-13.6.9-arm64-arm-64bit
  • Python 版本:3.11.4
  • Huggingface_hub 版本:0.23.4
  • Safetensors 版本:0.4.3
  • Accelerate 版本:0.32.1
  • Accelerate 配置:未找到
  • PyTorch 版本(GPU?):2.4.0(False)
  • Tensorflow 版本(GPU?):未安装(NA)
  • Flax 版本(CPU?/GPU?/TPU?):未安装(NA)
  • Jax 版本:未安装
  • JaxLib 版本:未安装
  • 在脚本中使用分布式或并行设置?:否

谁可以帮忙?

@ArthurZucker

信息

  • 官方示例脚本
  • 我自己的修改过的脚本

任务

  • examples 文件夹中的一个官方支持的任务(如GLUE/SQuAD等)
  • 我自己的任务或数据集(以下详细说明)

重现问题

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
text = "the quick brown fox jumps over the lazy dog"
out = tokenizer(text)
out.char_to_token(0)

对于任何非零的字符索引,这都返回None
此外,token_to_char 不返回预期的结果:
out.token_to_chars(4) 返回
CharSpan(start=15, end=15)
而不是 CharSpan(start=15, end=19)

预期行为

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
text = "the quick brown fox jumps over the lazy dog"
out = tokenizer(text)
out.char_to_token(0)

应返回 1
out.token_to_chars(4)
应返回 CharSpan(start=15, end=19)

qco9c6ql

qco9c6ql1#

我认为这与 huggingface/transformers#25082 有关,与其说与 transformers 有关,不如说更与 tokenizers 相关。

flvtvl50

flvtvl502#

我无法提供一个固定的答案,但确实如此。

ukdjmx9f

ukdjmx9f3#

我应该在那个仓库里打开这个问题吗?这对于$x_{1e0f1}^{x}$确实很需要。

dgsult0t

dgsult0t4#

是的,这基本上与#1553相同,因为偏移量是错误的,仅使用它们的字符到令牌也输出错误的输出。让我转移这个问题!

相关问题