使用spark读取带有where子句的hbase表

yqkkidmi 于 2021-06-10 发布在 Hbase

关注(0)|答案(1)|浏览(399)

我正在尝试使用sparkscalaapi读取hbase表。
示例代码：

conf.set("hbase.master", "localhost:60000")
conf.set("hbase.zookeeper.quorum", "localhost")
conf.set(TableInputFormat.INPUT_TABLE, tableName)
val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])
println("Number of Records found : " + hBaseRDD.count())

如何添加 where 如果我使用 newAPIHadoopRDD ?
或者我们需要使用任何 Spark Hbase Connector 为了达到这个目的？
我看到了下面的spark hbase连接器，但没有看到任何带有where子句的示例代码。
https://github.com/nerdammer/spark-hbase-connector

Java hbase scala apache-spark hortonworks-data-platform

来源：https://stackoverflow.com/questions/40082170/read-hbase-table-with-where-clause-using-spark

1条答案

按热度按时间

4jb9z9bj1#

您可以使用hortonworks的shc连接器来实现这一点。
https://github.com/hortonworks-spark/shc
下面是spark 2的代码示例。

val catalog =
        s"""{
            |"table":{"namespace":"default", "name":"my_table"},
            |"rowkey":"id",
            |"columns":{
            |"id":{"cf":"rowkey", "col":"id", "type":"string"},
            |"name":{"cf":"info", "col":"name", "type":"string"},
            |"age":{"cf":"info", "col":"age", "type":"string"}
            |}
            |}""".stripMargin

    val spark = SparkSession
        .builder()
        .appName("hbase spark")
        .getOrCreate()

    val df = spark
        .read
        .options(
            Map(
                HBaseTableCatalog.tableCatalog -> catalog
            )
        )
        .format("org.apache.spark.sql.execution.datasources.hbase")
        .load()

    df.show()

然后可以在Dataframe上使用任何方法。前任：

df.where(df("age") === 20)

赞(0）回复(0）举报 2021-06-10

我来回答

使用spark读取带有where子句的hbase表

1条答案

相关问题

热门标签

最新问答