scrapy 如何在Python中检查文本是否为日文平假名?

vkc1a9a2  于 2022-11-09  发布在  Python
关注(0)|答案(2)|浏览(97)

我正在做一个网络爬虫使用python scrapy收集网站文本。
我只想收集日文平假名文字。是否有解决方案可以侦测日文平假名文字?

70gysomp

70gysomp1#

假设您只需要平假名,并且可以将文本转换为unicode / utf8:
平假名是Unicode code block U+3040 - U+309F,因此您可以使用以下语句进行测试:
第一个
但请注意,这不包括历史和非标准平假名(hentaigana)、空格、标点符号、片假名和日本汉字:
第一个
您可以允许空白:
第一个
但我会避免走上这条过于具体的道路,有很多困难的问题,像编码,半角字符,表情符号,中日韩代码块,外来词等。

mepcadol

mepcadol2#

一个选项是langdetect库。

pip install langdetect

然后在您的代码中:

from langdetect import detect
detect("ハローワールド")

将返回文本的语言代码,即ja
日语文本往往是平假名,片假名和汉字的混合。它需要特别识别平假名吗?

相关问题