我有一个问题,我不能跳过我自己的头在一个csv文件,而阅读它与pyspark read.csv
.
csv文件如下所示:
°°°°°°°°°°°°°°°°°°°°°°°°
° My Header °
° Important Data °
° Data °
°°°°°°°°°°°°°°°°°°°°°°°°
MYROW;SECONDROW;THIRDROW
290;6848;66484
96849684;68463;63848
84646;6484;98718
我不明白我怎么会跳过所有的第一行或第n行。
我试过这样的方法:
df_read = spark.read.csv('MyCSV-File.csv', sep=';') \
.rdd.zipWithIndex() \
.filter(lambda x: x[1] > 6) \
.map(lambda x: x[0]) \
.toDF('MYROW','SECONDROW','THIRDROW')
有没有可能跳过线,特别是它会有多快?数据可能是一些gb的。谢谢
1条答案
按热度按时间xytpbqjk1#
您可以在第一行添加筛选器:
另一种选择是将这些行标记为注解: