我们目前正在尝试基于我们的用户数据库(几百万个配置文件)创建一些非常基本的角色。我们的目标是在这个阶段找出用户的特征,例如他们看起来像什么,他们在寻找什么,并创建几个“典型的”用户配置文件。
我相信实现这一点的最佳方法是运行聚类分析,以便在用户之间找到相似之处。
然而,最大的障碍是如何到达那里。我们正在hadoop环境中跟踪我们的数据,我被告知这可能通过我们的工具实现。
我已经熟悉了这个主题的理论,并且知道它可以在spss中完成(很难使用,并且仅限于大数据集的样本)。
最大的问题是:有没有可能在hadoop环境中执行一个或多个不同类型的聚类分析,然后像spss那样可视化结果?我的理解是,我们需要运行几种类型的分析,以便找到对数据进行聚类的最佳方法,而且在聚类的距离度量方面也是如此。
我在互联网上没有找到任何与此相关的信息,因此我想知道这是否有可能,而无需进行大量的编程工作(例如,字面上的意思是实现spss中可用的所有标准工具:树状图、不同的结果表和聚类图等)。
任何意见都会得到很好的回应。谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!