聚类结果的聚类点消失[mahout]

kqqjbcuj 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(387)

我得到了csv和文本格式的结果，如下面的clusterdump。
csv格式：

0,Sports_38.txt
1,Sports_23.txt
2,Sports_36.txt
3,Sports_13.txt
4,Sports_31.txt,Sports_32.txt
5,Sports_28.txt,Sports_29.txt
6,Sports_2.txt
9,Sports_15.txt

文本：

{"identifier":"VL-1","r":[],"c":[...,"n":7}
Top Terms: 
    什                                       =>  15.829998016357422
    利物浦                                     =>  13.629814147949219
    克                                       =>  11.317766189575195
    格                                       =>  10.938775062561035
    特                                       =>  10.842317581176758
    尔                                       =>  10.447234153747559
    切尔西                                     =>   9.742402076721191
    比赛                                      =>   8.247735023498535
    表现                                      =>   7.909337520599365
    批评                                      =>   7.462332725524902

我注意到csv文件中只有一个vl-1点，而文本文件中只有7个vl-1点（vl-1的“n”等于7）。
为什么有些点消失了？如何得到每个点的簇？
谢谢。

hadoop mahout

来源：https://stackoverflow.com/questions/27622298/clusteredpoints-of-cluster-result-disappear-mahout

1条答案

按热度按时间

rkkpypqq1#

如果数据再大一点，我也会得到空的clusteredpoints。
我终于自己找到了原因。
clusterclassificationthreshold在kmeans中应为0。运行的第8个参数。（mahout 1.0）
检查此项：http://mail-archives.apache.org/mod_mbox/mahout-user/201211.mbox/%3c50b62629.5020700@windwardsolutions.com%3e

赞(0）回复(0）举报 2021-05-30

我来回答

聚类结果的聚类点消失[mahout]

1条答案

相关问题

热门标签

最新问答