所以我的项目流程是kafka->spark streaming->hbase
现在我想再次从hbase读取数据,它将遍历上一个作业创建的表,并进行一些聚合,然后以不同的列格式将其存储在另一个表中
Kafka->Spark流(2ms)->hbase->Spark流(10ms)->hbase
现在我不知道如何使用spark流从hbase读取数据。我发现了一个cloudera实验室项目是sparkonhbase(http://blog.cloudera.com/blog/2014/12/new-in-cloudera-labs-sparkonhbase/)库,但我不知道如何从hbase获取用于流处理的inputdstream。请提供任何指针或库链接,如果有任何这将有助于我做到这一点。
2条答案
按热度按时间gmxoilav1#
拼接机(开源)有一个演示显示Spark流运行。
http://community.splicemachine.com/category/tutorials/data-ingestion-streaming/
下面是这个用例的示例代码。
https://github.com/splicemachine/splice-community-sample-code/tree/master/tutorial-kafka-spark-streaming
mbyulnm02#
您可以使用queuestream:streamingcontext从RDD队列创建数据流
ps:你可以用spark(不用流媒体)