描述bug
text-type.py
中的函数 contains_english_word(text)
会检查输入的文本是否包含英文单词。然而,这个函数还会匹配到其他语言中也存在的英文单词(例如西班牙语中的 "no"),因此在 is_possible_narrative_text
中的检查(如
if language == "en" and language_checks and not contains_english_word(text):
)在应该进入此情况时失败了。
重现问题
示例:
narrative_text = "Hola, ¿cómo estás? No, no hablo inglés."
text_type.is_possible_narrative_text(narrative_text, language="en") # should be False, IS TRUE
text_type.is_possible_narrative_text(narrative_text, language="es") # should be True, is True
预期行为
仅应将用英文书写的英文单词与此函数匹配,而不是任何英文单词的存在(即使当这些词在其他语言中没有关联时)。
2条答案
按热度按时间bxfogqkk1#
我们预计,随着langdetect的引入,文档语言检测的功能将发生显著变化。
2g32fytz2#
我们可以关闭这个了,因为
contains_english_word
不再使用。打开#3007以删除未使用的代码路径。