pyspark-read csv skip own头

stszievb  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(476)

我有一个问题,我不能跳过我自己的头在一个csv文件,而阅读它与pyspark read.csv .
csv文件如下所示:

°°°°°°°°°°°°°°°°°°°°°°°°
°      My Header       °
°    Important Data    °
°        Data          °
°°°°°°°°°°°°°°°°°°°°°°°°

MYROW;SECONDROW;THIRDROW
290;6848;66484
96849684;68463;63848
84646;6484;98718

我不明白我怎么会跳过所有的第一行或第n行。
我试过这样的方法:

df_read = spark.read.csv('MyCSV-File.csv', sep=';') \
        .rdd.zipWithIndex() \
        .filter(lambda x: x[1] > 6) \
        .map(lambda x: x[0]) \
        .toDF('MYROW','SECONDROW','THIRDROW')

有没有可能跳过线,特别是它会有多快?数据可能是一些gb的。谢谢

xytpbqjk

xytpbqjk1#

您可以在第一行添加筛选器:

.filter(lambda line: not line.startswith("°"))

另一种选择是将这些行标记为注解:

.option("comment", "°")

相关问题