spaCy Tokenizer 相较于输入占用了大量内存,

tjvv9vkg 于 5个月前发布在其他

关注(0)|答案(1)|浏览(82)

如何复现行为
下载 https://www.gutenberg.org/files/1342/1342-0.txt — 《傲慢与偏见》，大约0.8MB。
然后运行：

import spacy

nlp = spacy.load("en_core_web_sm")
with open("./1342-0.txt") as f:
    book = f.read()
    result = nlp.tokenizer(book)

使用 Fil memory profiler ( fil-profile run example.py )运行此代码显示分词器使用30MB的RAM处理输入文件(最右边的列)。换句话说，内存使用量是原始文件大小的15-30倍，考虑到 _realloc 中引入的双倍逻辑所带来的不确定性。

基本上，内存使用量似乎与 tokens 数组中的 TokenC 对象有关。缩小 TokenC 是直接的方法：

更改字段的顺序，使字段按大小递减的顺序排列，这样对齐要求就不会添加不必要的填充。例如，查看 https://lwn.net/Articles/335942/ 以了解填充如何增加内存。
TokenC 上的一些字段可能可以切换为较小的类型，例如 uint32_t(或者在某些情况下甚至可以是16或8),而不是 uint64_t。
我模糊的印象是，一个 TokenC 可以存储不同类型的令牌的不同信息。因此，它有一些字段用于一种类型，但不用于另一种类型，反之亦然。切换到联合体而不是一个大结构可以减少从所有变体的总和到所有变体的最大值的内存使用量。