我有下面的Hive表:
select* from employee;
OK
abc 19 da
xyz 25 sa
pqr 30 er
suv 45 dr
当我在spark(pyspark)中读到这个时:
df = hiveCtx.sql('select* from spark_hive.employee')
df.show()
+----+----+-----+
|name| age| role|
+----+----+-----+
|name|null| role|
| abc| 19| da|
| xyz| 25| sa|
| pqr| 30| er|
| suv| 45| dr|
+----+----+-----+
我最终得到了sparkDataframe中的头。有没有一个简单的方法来消除它?
另外,我在将表读入Dataframe时是否遗漏了什么(理想情况下,我不应该得到正确的标题?)?
3条答案
按热度按时间6yoyoihd1#
您必须从结果中删除标题。你可以这样做:
谢谢。
wribegjk2#
你可以用
skip.header.line.count
跳过此标题。也可以在创建表时指定相同的值。例如:之后加载数据,然后检查您的查询,我希望您将得到预期的输出。
z9smfwbn3#
虽然不是最优雅的方式,但Pypark也能做到: