在pyspark中解析自定义csv头

t3psigkw 于 2021-05-19 发布在 Spark

关注(0)|答案(0)|浏览(305)

我正在尝试在pyspark中将csv文件作为流读取。但是，该文件在实际的多行csv头之前以一个自定义头开始。该头包含有关文件内容的重要信息。
csv文件示例：

"custom-header-start"
"string of custom header"
"another string of custom header"
...
"custom-header-end"
"actual-csv-header line 1"
...
"actual-csv-header line n"
1;5;9;"any string"; 98.7;....
1;8;6;"any string"; 87.7;....
4;2;4;"any string"; 67.7;....
....

我知道自定义标题的大小总是前9行。所以我会得到标题，例如 df.head(9) 并在纯python中使用它来获得相关信息。但当我在小溪上时 df.head(9) 将导致结构化流媒体中不允许的分支。。。我想知道你们如何解决这个问题，在读取文件的实际数据之前解析自定义头文件？有什么切实可行的解决方案/解决办法吗？
提前谢谢！

python apache-spark pyspark csv parsing

来源：https://stackoverflow.com/questions/64428539/parse-custom-csv-header-in-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在pyspark中解析自定义csv头

暂无答案！

相关问题

热门标签

最新问答