关于这个大数据用例的建议技术/设计

vwhgwdsa  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(264)

我是新的大数据技术和设计,所以希望从java世界的帮助。
我有标签和标签组合的概念。例如,u.s.a和pen是两个标记,如果它们在某个定义中结合在一起,则为此注册一个标记组合(u.s.a-pen)。。
标签(美国,钢笔,铅笔,印度,洗发水)标签组合(美国,印度,铅笔,美国,印度,钢笔洗发水)
数以百万计的标签
数十亿个标记组合
一个标签组合通常有2-8个标签。。。。
每天我们都有成千上万的新标签组合要写
通过一组标记查找匹配组合的每日查询次数
查询需要支持:一个标签或一组标 checkout 现在多少个tagcombinationid????如果我查询pen,india,那么它应该返回两个tagcombinaions(india pen,india pen shampool))。应用程序将实时触发查询。
请建议一个解决方案,这是分布式的java客户端,可以处理的数据规模我正在寻找。。
已经在Cassandra身上试过了,但没能得出和我的问题相匹配的结论。。
谢谢纳雷什

sxpgvts3

sxpgvts31#

我建议您研究apache lucene项目:
http://lucene.apache.org/
您不能直接使用cassandra来实现这一点,但是如果您将数据存储在cassandra中,您可以使用solr在数据之上添加额外的索引。datastax有一个名为datastax enterprise的捆绑解决方案,它将cassandra/solr结合在一起:
http://www.datastax.com/what-we-offer/products-services/datastax-enterprise

相关问题