将表从hdfs导入spark

vpfxa7rd  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(376)

有没有一种方法可以将一个表从hdfs直接导入spark并将其存储为rdd,或者需要将其制作成一个textfile来这样做?
ps-我使用sqoop从本地系统将表放到hdfs上(如果有必要的话),当我这样做时,它以4个文件的形式出现

b5buobof

b5buobof1#

虽然我以前没有使用过sqoop,但您可以使用它来创建配置单元表,然后使用sparksql进行查询,这将返回schemards:)

kognpnkq

kognpnkq2#

你可以用 read.jdbc() 在你的 sqlContext 将表从外部db导入sparkDataframe。

相关问题