我得到了csv和文本格式的结果,如下面的clusterdump。
csv格式:
0,Sports_38.txt
1,Sports_23.txt
2,Sports_36.txt
3,Sports_13.txt
4,Sports_31.txt,Sports_32.txt
5,Sports_28.txt,Sports_29.txt
6,Sports_2.txt
9,Sports_15.txt
文本:
{"identifier":"VL-1","r":[],"c":[...,"n":7}
Top Terms:
什 => 15.829998016357422
利物浦 => 13.629814147949219
克 => 11.317766189575195
格 => 10.938775062561035
特 => 10.842317581176758
尔 => 10.447234153747559
切尔西 => 9.742402076721191
比赛 => 8.247735023498535
表现 => 7.909337520599365
批评 => 7.462332725524902
我注意到csv文件中只有一个vl-1点,而文本文件中只有7个vl-1点(vl-1的“n”等于7)。
为什么有些点消失了?如何得到每个点的簇?
谢谢。
1条答案
按热度按时间rkkpypqq1#
如果数据再大一点,我也会得到空的clusteredpoints。
我终于自己找到了原因。
clusterclassificationthreshold在kmeans中应为0。运行的第8个参数。(mahout 1.0)
检查此项:http://mail-archives.apache.org/mod_mbox/mahout-user/201211.mbox/%3c50b62629.5020700@windwardsolutions.com%3e