关于这个大数据用例的建议技术/设计

vwhgwdsa 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(264)

我是新的大数据技术和设计，所以希望从java世界的帮助。
我有标签和标签组合的概念。例如，u.s.a和pen是两个标记，如果它们在某个定义中结合在一起，则为此注册一个标记组合（u.s.a-pen）。。
标签（美国，钢笔，铅笔，印度，洗发水）标签组合（美国，印度，铅笔，美国，印度，钢笔洗发水）
数以百万计的标签
数十亿个标记组合
一个标签组合通常有2-8个标签。。。。
每天我们都有成千上万的新标签组合要写
通过一组标记查找匹配组合的每日查询次数
查询需要支持：一个标签或一组标 checkout 现在多少个tagcombinationid？？？？如果我查询pen，india，那么它应该返回两个tagcombinaions（india pen，india pen shampool））。应用程序将实时触发查询。
请建议一个解决方案，这是分布式的java客户端，可以处理的数据规模我正在寻找。。
已经在Cassandra身上试过了，但没能得出和我的问题相匹配的结论。。
谢谢纳雷什

hadoop cassandra mapreduce bigdata lucene

来源：https://stackoverflow.com/questions/21402182/suggestion-technology-design-on-this-bigdata-usecase

1条答案

按热度按时间

sxpgvts31#

我建议您研究apache lucene项目：
http://lucene.apache.org/
您不能直接使用cassandra来实现这一点，但是如果您将数据存储在cassandra中，您可以使用solr在数据之上添加额外的索引。datastax有一个名为datastax enterprise的捆绑解决方案，它将cassandra/solr结合在一起：
http://www.datastax.com/what-we-offer/products-services/datastax-enterprise

赞(0）回复(0）举报 2021-06-03

我来回答

关于这个大数据用例的建议技术/设计

1条答案

相关问题

热门标签

最新问答