我正在尝试使用apachespark从hbase读取数据。我只想扫描一个特定的列。我正在创建hbase数据的rdd,如下所示
SparkConf sparkConf = new SparkConf().setAppName("HBaseRead").setMaster("local[2]");
JavaSparkContext sc = new JavaSparkContext(sparkConf);
Configuration conf = HBaseConfiguration.create();
conf.set("hbase.zookeeper.quorum", "localhost:2181");
String tableName = "myTable";
conf.set(TableInputFormat.INPUT_TABLE, tableName);
conf.set(TableInputFormat.SCAN_COLUMN_FAMILY, "myCol");
JavaPairRDD<ImmutableBytesWritable, Result> hBaseRDD = sc.newAPIHadoopRDD(conf, TableInputFormat.class,
ImmutableBytesWritable.class, Result.class);
我想在这里转换 JavaPairRDD
至 JavaRDD
一根绳子。
JavaRDD<String> rdd = ...
我怎样才能做到这一点?
1条答案
按热度按时间ndh0cuux1#
你可以得到
JavaRDD<String>
使用map
功能如下。