使用Python自然语言工具包阅读孟加拉语

bnl4lu3b 于 2023-04-28 发布在 Python

关注(0)|答案(2)|浏览(124)

我想在NLTK的CategorizedPlainCorpusReader中阅读孟加拉语文本。对于gedit文本编辑器中我的孟加拉语文本文件的此快照：

Sublime文本编辑器中的文件快照：

从快照中可以看出问题所在。问题是Unicode组合问题（虚线环是一个死的赠品）。下面是阅读文本的代码段：

>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')

输出为：

输出应为“”而不是“”“”。我们能做些什么呢？？先谢了。

python

来源：https://stackoverflow.com/questions/42718792/reading-bengali-with-python-natural-language-toolkit

2条答案

按热度按时间

eit6fx6z1#

您需要提供Bengali characters的Unicode范围。
使用

word_tokenize = RegexpTokenizer("[\u0980-\u09FF']+")

撇号可以按原样保留在字符类中。

赞(0）回复(0）举报 2023-04-28

t5fffqht2#

下面的代码对我来说很好：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import os
from nltk.corpus.reader import CategorizedPlaintextCorpusReader
from nltk import RegexpTokenizer

path = os.path.expanduser('~/nltk_data/corpora/Bangla')    
word_tokenize = RegexpTokenizer("[\u0980-\u09FF']+")
reader = CategorizedPlaintextCorpusReader(path, r'.*\.txt', cat_pattern=r'(.*)_.*', word_tokenizer=word_tokenize)
reader.sents(categories='pos')

赞(0）回复(0）举报 2023-04-28

我来回答

使用Python自然语言工具包阅读孟加拉语

2条答案

相关问题

热门标签

最新问答