scrapy 如何在Python中检查文本是否为日文平假名？

vkc1a9a2 于 2022-11-09 发布在 Python

关注(0)|答案(2)|浏览(97)

我正在做一个网络爬虫使用python scrapy收集网站文本。
我只想收集日文平假名文字。是否有解决方案可以侦测日文平假名文字？

scrapy

来源：https://stackoverflow.com/questions/72016049/how-to-check-if-text-is-japanese-hiragana-in-python

2条答案

按热度按时间

70gysomp1#

假设您只需要平假名，并且可以将文本转换为unicode / utf8：
平假名是Unicode code block U+3040 - U+309F，因此您可以使用以下语句进行测试：
第一个
但请注意，这不包括历史和非标准平假名（hentaigana）、空格、标点符号、片假名和日本汉字：
第一个
您可以允许空白：
第一个
但我会避免走上这条过于具体的道路，有很多困难的问题，像编码，半角字符，表情符号，中日韩代码块，外来词等。

赞(0）回复(0）举报 2022-11-09

mepcadol2#

一个选项是langdetect库。

pip install langdetect

然后在您的代码中：

from langdetect import detect
detect("ハローワールド")

将返回文本的语言代码，即ja
日语文本往往是平假名，片假名和汉字的混合。它需要特别识别平假名吗？

赞(0）回复(0）举报 2022-11-09

我来回答

scrapy 如何在Python中检查文本是否为日文平假名？

2条答案

相关问题

热门标签

最新问答