有没有一种方法可以将一个表从hdfs直接导入spark并将其存储为rdd,或者需要将其制作成一个textfile来这样做?ps-我使用sqoop从本地系统将表放到hdfs上(如果有必要的话),当我这样做时,它以4个文件的形式出现
b5buobof1#
虽然我以前没有使用过sqoop,但您可以使用它来创建配置单元表,然后使用sparksql进行查询,这将返回schemards:)
kognpnkq2#
你可以用 read.jdbc() 在你的 sqlContext 将表从外部db导入sparkDataframe。
read.jdbc()
sqlContext
2条答案
按热度按时间b5buobof1#
虽然我以前没有使用过sqoop,但您可以使用它来创建配置单元表,然后使用sparksql进行查询,这将返回schemards:)
kognpnkq2#
你可以用
read.jdbc()
在你的sqlContext
将表从外部db导入sparkDataframe。