pyspark-read csv skip own头

stszievb 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(477)

我有一个问题，我不能跳过我自己的头在一个csv文件，而阅读它与pyspark read.csv .
csv文件如下所示：

°°°°°°°°°°°°°°°°°°°°°°°°
°      My Header       °
°    Important Data    °
°        Data          °
°°°°°°°°°°°°°°°°°°°°°°°°

MYROW;SECONDROW;THIRDROW
290;6848;66484
96849684;68463;63848
84646;6484;98718

我不明白我怎么会跳过所有的第一行或第n行。
我试过这样的方法：

df_read = spark.read.csv('MyCSV-File.csv', sep=';') \
        .rdd.zipWithIndex() \
        .filter(lambda x: x[1] > 6) \
        .map(lambda x: x[0]) \
        .toDF('MYROW','SECONDROW','THIRDROW')

有没有可能跳过线，特别是它会有多快？数据可能是一些gb的。谢谢

python apache-spark pyspark

来源：https://stackoverflow.com/questions/63921318/pyspark-read-csv-skip-own-header

1条答案

按热度按时间

xytpbqjk1#

您可以在第一行添加筛选器：

.filter(lambda line: not line.startswith("°"))

另一种选择是将这些行标记为注解：

.option("comment", "°")

赞(0）回复(0）举报 2021-05-27

我来回答

pyspark-read csv skip own头

1条答案

相关问题

热门标签

最新问答