我是个Apache新手。我想知道我的命名向量属于哪个簇。互联网上的很多资源都是关于文本文档的,并使用clusterdump命令。但是,我的数据集非常庞大,运行该命令总是会导致java内存不足异常。另外,我不认为使用clusterdump可以回答我的问题。
我想知道,除了哪些命名向量属于哪些使用目录的集群之外,是否有可能理解其他任何东西 clusteredPoints
以及 clusters-[0-9]+
以及 clusters-*-final
如果有帮助的话,到目前为止,我已经根据用户的听歌习惯形成了用户群。为此,我首先使用namedvector创建了一个序列文件,其中namedvector的名称是userid,向量本身是一个双数组,包含用户所听歌曲的标签的权重(下面是一个示例)。
AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
...
...
...
然后我成功地运行了k-means。我在clusteredpoints目录(大约88个文件名为part-m-00088)和我认为包含质心的目录簇中有输出。
谢谢你的帮助!
1条答案
按热度按时间vbkedwbf1#
我认为你需要对clusterdump做一些研究,试试mahout clusterdump——帮你试试这个
并尝试此链接以获取进一步的解释。
您也可以尝试添加选项-csv,您将有如下显示:
id\u cluster1,vec1,vec2..vecl
id\u cluster2,vec1,vec2..vecl
...