任何人都直接在hbase表上使用sparksql,就像在hive表上使用sparksql一样。我是spark的新手。请指导我如何连接hbase和spark。如何查询hbase表。
r1zhe5dt1#
有两种方法可以连接到hbase表
直接连接hbase并创建 DataFrame 从 RDD 并在此基础上执行sql。我不打算重新发明轮子,请看如何从hbase读取使用Spark作为@imkanchwala在上面的链接已经描述了它的答案。唯一的事情就是把它转换成Dataframe(使用 toDF )并遵循sql方法。
DataFrame
RDD
toDF
Ex : CREATE TABLE users( userid int, name string, email string, notes string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ( "hbase.columns.mapping" = ”small:name,small:email,large:notes”);
如何做到这一点请看作为一个例子我更喜欢方法1。希望有帮助。。。
1条答案
按热度按时间r1zhe5dt1#
有两种方法可以连接到hbase表
-直接连接到hbase:
直接连接hbase并创建
DataFrame
从RDD
并在此基础上执行sql。我不打算重新发明轮子,请看如何从hbase读取使用Spark作为@imkanchwala在上面的链接已经描述了它的答案。唯一的事情就是把它转换成Dataframe(使用toDF
)并遵循sql方法。-使用hbase存储处理程序将表注册为配置单元外部表,您可以从hivecontext使用spark上的配置单元。这也是一个简单的方法。
如何做到这一点请看作为一个例子
我更喜欢方法1。
希望有帮助。。。