如何使用spark streaming使用scala从hbase表中获取数据

9jyewag0  于 2021-06-09  发布在  Hbase
关注(0)|答案(2)|浏览(524)

我正在尝试确定一种解决方案,使用spark streaming从hbase表读取数据,并将数据写入另一个hbase表。
我在因特网上找到了许多要求创建一个数据流以从hdfs文件和所有文件中获取数据的示例,但是我找不到任何从hbase表中获取数据的示例
例如,如果我有一个hbase表sample,其列为name和activestatus。如何使用spark streaming(new data)从基于activestatus列的表sample中检索数据?
欢迎使用spark streaming从hbase表检索数据的任何示例。
你好,阿达斯·k·s

slwdgvem

slwdgvem1#

您可以通过多种方式从spark连接到hbase
hortonwork spark hbase连接器:https://github.com/hortonworks-spark/shc
联合信贷银行hbase rdd:https://github.com/unicredit/hbase-rdd
hortonworks shc使用用户定义的目录将hbase直接读取到Dataframe,而hbase rdd将其读取为rdd,并可以使用todf方法将其转换为df。hbase rdd有批量写入选项(直接写入hfiles)是大量数据写入的首选。

bprjcwpo

bprjcwpo2#

您需要的是一个使spark能够与hbase交互的库。霍顿工厂 shc 是这样一种延伸:
https://github.com/hortonworks-spark/shc

相关问题