我正在尝试在pyspark中将csv文件作为流读取。但是,该文件在实际的多行csv头之前以一个自定义头开始。该头包含有关文件内容的重要信息。
csv文件示例:
"custom-header-start"
"string of custom header"
"another string of custom header"
...
"custom-header-end"
"actual-csv-header line 1"
...
"actual-csv-header line n"
1;5;9;"any string"; 98.7;....
1;8;6;"any string"; 87.7;....
4;2;4;"any string"; 67.7;....
....
我知道自定义标题的大小总是前9行。所以我会得到标题,例如 df.head(9)
并在纯python中使用它来获得相关信息。但当我在小溪上时 df.head(9)
将导致结构化流媒体中不允许的分支。。。我想知道你们如何解决这个问题,在读取文件的实际数据之前解析自定义头文件?有什么切实可行的解决方案/解决办法吗?
提前谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!