聚类结果的聚类点消失[mahout]

kqqjbcuj  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(387)

我得到了csv和文本格式的结果,如下面的clusterdump。
csv格式:

  1. 0,Sports_38.txt
  2. 1,Sports_23.txt
  3. 2,Sports_36.txt
  4. 3,Sports_13.txt
  5. 4,Sports_31.txt,Sports_32.txt
  6. 5,Sports_28.txt,Sports_29.txt
  7. 6,Sports_2.txt
  8. 9,Sports_15.txt

文本:

  1. {"identifier":"VL-1","r":[],"c":[...,"n":7}
  2. Top Terms:
  3. => 15.829998016357422
  4. 利物浦 => 13.629814147949219
  5. => 11.317766189575195
  6. => 10.938775062561035
  7. => 10.842317581176758
  8. => 10.447234153747559
  9. 切尔西 => 9.742402076721191
  10. 比赛 => 8.247735023498535
  11. 表现 => 7.909337520599365
  12. 批评 => 7.462332725524902

我注意到csv文件中只有一个vl-1点,而文本文件中只有7个vl-1点(vl-1的“n”等于7)。
为什么有些点消失了?如何得到每个点的簇?
谢谢。

rkkpypqq

rkkpypqq1#

如果数据再大一点,我也会得到空的clusteredpoints。
我终于自己找到了原因。
clusterclassificationthreshold在kmeans中应为0。运行的第8个参数。(mahout 1.0)
检查此项:http://mail-archives.apache.org/mod_mbox/mahout-user/201211.mbox/%3c50b62629.5020700@windwardsolutions.com%3e

相关问题