我正在尝试确定一种解决方案,使用spark streaming从hbase表读取数据,并将数据写入另一个hbase表。
我在因特网上找到了许多要求创建一个数据流以从hdfs文件和所有文件中获取数据的示例,但是我找不到任何从hbase表中获取数据的示例
例如,如果我有一个hbase表sample,其列为name和activestatus。如何使用spark streaming(new data)从基于activestatus列的表sample中检索数据?
欢迎使用spark streaming从hbase表检索数据的任何示例。
你好,阿达斯·k·s
2条答案
按热度按时间slwdgvem1#
您可以通过多种方式从spark连接到hbase
hortonwork spark hbase连接器:https://github.com/hortonworks-spark/shc
联合信贷银行hbase rdd:https://github.com/unicredit/hbase-rdd
hortonworks shc使用用户定义的目录将hbase直接读取到Dataframe,而hbase rdd将其读取为rdd,并可以使用todf方法将其转换为df。hbase rdd有批量写入选项(直接写入hfiles)是大量数据写入的首选。
bprjcwpo2#
您需要的是一个使spark能够与hbase交互的库。霍顿工厂
shc
是这样一种延伸:https://github.com/hortonworks-spark/shc