我正在尝试将Parquet文件加载到hdfs文件表中。下面是我的顺序。首先从创建我的表开始。
from pyspark.sql import SparkSession
#from pyspark.sql import SQLContext
spark = (SparkSession \
.builder \
.appName("Test") \
.getOrCreate())
spark.sql("create external table if not exists table1 ( _c0 string, _c1 string, _c2 string, _c3 string, _c4 string, _c5 string, _c6 string) STORED AS parquet location 'hdfs://my_data/hive/db1/table1'")
# table created successfully
然后我加载我的csv文件,并确保模式与我创建的表相同:
dp=spark.read.load("/user/path/test.parquet", format="parquet").printSchema()
下面是Parquet文件的内容:
然后我把它写在我上面创建的表的路径上:
dp.write.save('hdfs://my_data/hive/db1/table1', format="parquet")
这将成功运行,但当我从表1中选择*时,不会显示任何值(见下文):
有人知道为什么没有值被插入或者什么都没有显示吗?是的,Parquet文件中有数据。
暂无答案!
目前还没有任何答案,快来回答吧!