jieba 4英寸,7.5ml,这种词是否有办法辨识?

yrwegjxp  于 5个月前  发布在  其他
关注(0)|答案(8)|浏览(110)

在应用时,往往被切分为4, 英寸,7.5, ml

vhmi4jdf

vhmi4jdf1#

当前我希望获得这种连词的时候,是直接判断量词前是否有数词。有数词自动连接。
但我觉得这是个dirty trick,需要原生支持。

holgip5t

holgip5t2#

对于这种量词我所呆过公司的做法一般是将这类词当成特殊词语对待,就像品牌有专门的品牌词典和品牌同义词等。所以量词也被当成一个特殊的环节来用特殊的方法对待。一般是用词典和正则。
个人愚见,期待更好的回答。

发自我的 iPhone
在 31 Mar 2014,01:13,"geekan, FSE(Full StackOverflow Engineer)" notifications@github.com 写道:

当前我希望获得这种连词的时候,是直接判断量词前是否有数词。有数词自动连接。
但我觉得这是个dirty trick,需要原生支持。


Reply to this email directly or view it on GitHub.

iklwldmw

iklwldmw3#

这种量词的可能不是很常见,有一类是AT&T、T恤等常见的品牌或者是中英标点符号共同成词,尽管userdict里有这个词,也无法正确分割。

kxeu7u2r

kxeu7u2r4#

@aszxqw 正则是对的,但会加倍扫描次数
我猜合并到库里会有比较好的性能

2cmtqfgy

2cmtqfgy5#

@tuang 这是另外一个问题,我也遇到了。
你开一个issue?

3htmauhk

3htmauhk6#

@tuang 我开了一个issue,你看需要怎么补充一下

ztigrdn8

ztigrdn87#

@geekan新开的issue在哪?

相关问题