unstructured bug/ contains_english_word捕获了在非英语语言中也找到的英语单词

vshtjzan  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(54)

描述bug

text-type.py 中的函数 contains_english_word(text) 会检查输入的文本是否包含英文单词。然而,这个函数还会匹配到其他语言中也存在的英文单词(例如西班牙语中的 "no"),因此在 is_possible_narrative_text 中的检查(如

if language == "en" and language_checks and not contains_english_word(text):

)在应该进入此情况时失败了。

重现问题

示例:

narrative_text = "Hola, ¿cómo estás? No, no hablo inglés."

text_type.is_possible_narrative_text(narrative_text, language="en") # should be False, IS TRUE
text_type.is_possible_narrative_text(narrative_text, language="es") # should be True, is True

预期行为

仅应将用英文书写的英文单词与此函数匹配,而不是任何英文单词的存在(即使当这些词在其他语言中没有关联时)。

bxfogqkk

bxfogqkk1#

我们预计,随着langdetect的引入,文档语言检测的功能将发生显著变化。

2g32fytz

2g32fytz2#

我们可以关闭这个了,因为contains_english_word不再使用。打开#3007以删除未使用的代码路径。

相关问题