sparksql

sbtkgmzw  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(356)

任何人都直接在hbase表上使用sparksql,就像在hive表上使用sparksql一样。我是spark的新手。请指导我如何连接hbase和spark。如何查询hbase表。

r1zhe5dt

r1zhe5dt1#

有两种方法可以连接到hbase表

-直接连接到hbase:

直接连接hbase并创建 DataFrameRDD 并在此基础上执行sql。我不打算重新发明轮子,请看如何从hbase读取使用Spark作为@imkanchwala在上面的链接已经描述了它的答案。唯一的事情就是把它转换成Dataframe(使用 toDF )并遵循sql方法。

-使用hbase存储处理程序将表注册为配置单元外部表,您可以从hivecontext使用spark上的配置单元。这也是一个简单的方法。

Ex : 
CREATE TABLE users(
userid int, name string, email string, notes string)
STORED BY 
'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 
"hbase.columns.mapping" = 
”small:name,small:email,large:notes”);

如何做到这一点请看作为一个例子
我更喜欢方法1。
希望有帮助。。。

相关问题