如何使用spark streaming使用scala从hbase表中获取数据

9jyewag0 于 2021-06-09 发布在 Hbase

关注(0)|答案(2)|浏览(525)

我正在尝试确定一种解决方案，使用spark streaming从hbase表读取数据，并将数据写入另一个hbase表。
我在因特网上找到了许多要求创建一个数据流以从hdfs文件和所有文件中获取数据的示例，但是我找不到任何从hbase表中获取数据的示例
例如，如果我有一个hbase表sample，其列为name和activestatus。如何使用spark streaming（new data）从基于activestatus列的表sample中检索数据？
欢迎使用spark streaming从hbase表检索数据的任何示例。
你好，阿达斯·k·s

hbase scala apache-spark spark-streaming

来源：https://stackoverflow.com/questions/53720739/how-to-use-spark-streaming-to-get-data-from-hbase-table-using-scala

2条答案

按热度按时间

slwdgvem1#

您可以通过多种方式从spark连接到hbase
hortonwork spark hbase连接器：https://github.com/hortonworks-spark/shc
联合信贷银行hbase rdd：https://github.com/unicredit/hbase-rdd
hortonworks shc使用用户定义的目录将hbase直接读取到Dataframe，而hbase rdd将其读取为rdd，并可以使用todf方法将其转换为df。hbase rdd有批量写入选项（直接写入hfiles）是大量数据写入的首选。

赞(0）回复(0）举报 2021-06-09

bprjcwpo2#

您需要的是一个使spark能够与hbase交互的库。霍顿工厂 shc 是这样一种延伸：
https://github.com/hortonworks-spark/shc

赞(0）回复(0）举报 2021-06-09