按照给定的标点符号规则,将文本断句切割例如:我是大哥,他是二哥,三哥没有.按照逗号断句返回结果是我是大哥,他是二哥,三哥没有.这样的,jeiba支持吗?
thtygnil1#
你其实可以自己训练HMM模型来断句。我本来想以jieba为基础做一个,可是这方面需求好像不大,就懒得做了。
zd287kbt2#
jieba能做文本相似度的处理吗?
pb3s4cty3#
可以提取关键词,文本相似度可用别的库。话说你想干什么?
rsl1atfo4#
文本相似度有哪些好的库?做毕设
huus2vyu5#
这要看你的具体应用了,去看一下各种文本或数据相似度算法的介绍和比较,再做决定。每种成熟的算法基本上都有对应的Python库。
lnxxn5zx6#
我基本是先分句再喂给jieba,用的re.split().
ergxz8rk7#
@gumblex 如果用HMM 該怎麼做? 就像分詞一樣的做法嗎?
7条答案
按热度按时间thtygnil1#
你其实可以自己训练HMM模型来断句。我本来想以jieba为基础做一个,可是这方面需求好像不大,就懒得做了。
zd287kbt2#
jieba能做文本相似度的处理吗?
pb3s4cty3#
可以提取关键词,文本相似度可用别的库。话说你想干什么?
rsl1atfo4#
文本相似度有哪些好的库?
做毕设
huus2vyu5#
这要看你的具体应用了,去看一下各种文本或数据相似度算法的介绍和比较,再做决定。每种成熟的算法基本上都有对应的Python库。
lnxxn5zx6#
我基本是先分句再喂给jieba,用的re.split().
ergxz8rk7#
@gumblex 如果用HMM 該怎麼做? 就像分詞一樣的做法嗎?