我在测试斯坦福nlp pos tagger,结果不一。
SOP(StanfordNLP.getInstance().getPOSMap("WHEAT flour(whole)".toLowerCase()));
SOP(StanfordNLP.getInstance().getPOSMap("Whole wheat flour".toLowerCase()));
给我以下输出
{NN=[wheat, flour, whole]}
{JJ=[whole], NN=[wheat, flour]}
我该如何处理这样的问题?其实是同样的词重新排列。
编辑
也许,我应该解释一下这个问题。
我想比较两个句子。我的方法是在两个字符串上执行pos,然后比较并分别为两个字符串中的名词/形容词/动词打分。
但是由于基于词序的模糊标记(也被@elliott引用),我的排名在某些情况下失败了。有人能提出解决办法吗?
是否有一个分类统计,它给出了一个名词被分类为形容词或动词等的概率,我可以在我的评分算法中使用它来提供权重?
谢谢,查哈特
2条答案
按热度按时间rryofs0p1#
pos标记器总是给出不同的结果;词性标注是上下文的,因为一个词在不同的上下文中可以是名词、形容词或动词。词性标注的人工智能成分决定了如何根据单词在句子中的顺序来标注单词。
8oomwypt2#
stanford pos tagger很不错。但是,如果您想轻松地看到与标准nltk和其他名为senna的质量标记器的并排比较,您可以尝试以下方法:https://github.com/stealthyk/taggertimer