在pyspark中解析自定义csv头

t3psigkw  于 2021-05-19  发布在  Spark
关注(0)|答案(0)|浏览(300)

我正在尝试在pyspark中将csv文件作为流读取。但是,该文件在实际的多行csv头之前以一个自定义头开始。该头包含有关文件内容的重要信息。
csv文件示例:

"custom-header-start"
"string of custom header"
"another string of custom header"
...
"custom-header-end"
"actual-csv-header line 1"
...
"actual-csv-header line n"
1;5;9;"any string"; 98.7;....
1;8;6;"any string"; 87.7;....
4;2;4;"any string"; 67.7;....
....

我知道自定义标题的大小总是前9行。所以我会得到标题,例如 df.head(9) 并在纯python中使用它来获得相关信息。但当我在小溪上时 df.head(9) 将导致结构化流媒体中不允许的分支。。。我想知道你们如何解决这个问题,在读取文件的实际数据之前解析自定义头文件?有什么切实可行的解决方案/解决办法吗?
提前谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题