每个mahout集群中的apache向量

ccgok5k5 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(328)

我是个Apache新手。我想知道我的命名向量属于哪个簇。互联网上的很多资源都是关于文本文档的，并使用clusterdump命令。但是，我的数据集非常庞大，运行该命令总是会导致java内存不足异常。另外，我不认为使用clusterdump可以回答我的问题。
我想知道，除了哪些命名向量属于哪些使用目录的集群之外，是否有可能理解其他任何东西 clusteredPoints 以及 clusters-[0-9]+ 以及 clusters-*-final 如果有帮助的话，到目前为止，我已经根据用户的听歌习惯形成了用户群。为此，我首先使用namedvector创建了一个序列文件，其中namedvector的名称是userid，向量本身是一个双数组，包含用户所听歌曲的标签的权重（下面是一个示例）。

AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
    ...
    ...
    ...

然后我成功地运行了k-means。我在clusteredpoints目录（大约88个文件名为part-m-00088）和我认为包含质心的目录簇中有输出。
谢谢你的帮助！

hadoop cluster-analysis apache mahout

来源：https://stackoverflow.com/questions/16138045/vectors-in-each-mahout-cluster

1条答案

按热度按时间

vbkedwbf1#

我认为你需要对clusterdump做一些研究，试试mahout clusterdump——帮你试试这个

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000

并尝试此链接以获取进一步的解释。
您也可以尝试添加选项-csv，您将有如下显示：
id\u cluster1，vec1，vec2..vecl
id\u cluster2，vec1，vec2..vecl
...

赞(0）回复(0）举报 2021-06-03

我来回答

每个mahout集群中的apache向量

1条答案

相关问题

热门标签

最新问答