sparksql

sbtkgmzw 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(356)

任何人都直接在hbase表上使用sparksql，就像在hive表上使用sparksql一样。我是spark的新手。请指导我如何连接hbase和spark。如何查询hbase表。

hadoop hbase apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/39530938/sparksql-on-hbase-tables

1条答案

按热度按时间

r1zhe5dt1#

有两种方法可以连接到hbase表

-直接连接到hbase：

直接连接hbase并创建 DataFrame 从 RDD 并在此基础上执行sql。我不打算重新发明轮子，请看如何从hbase读取使用Spark作为@imkanchwala在上面的链接已经描述了它的答案。唯一的事情就是把它转换成Dataframe（使用 toDF )并遵循sql方法。

-使用hbase存储处理程序将表注册为配置单元外部表，您可以从hivecontext使用spark上的配置单元。这也是一个简单的方法。

Ex : 
CREATE TABLE users(
userid int, name string, email string, notes string)
STORED BY 
'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 
"hbase.columns.mapping" = 
”small:name,small:email,large:notes”);

如何做到这一点请看作为一个例子
我更喜欢方法1。
希望有帮助。。。

赞(0）回复(0）举报 2021-06-02

我来回答

sparksql

1条答案

-直接连接到hbase：

-使用hbase存储处理程序将表注册为配置单元外部表，您可以从hivecontext使用spark上的配置单元。这也是一个简单的方法。

相关问题

热门标签

最新问答