spark读取自定义inputformat的warc文件

bvuwiixz 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(514)

我需要通过spark处理一个.warc文件，但是我似乎找不到一个简单的方法。我更喜欢使用python，而不是通过rdd将整个文件读入 wholeTextFiles() （因为整个文件将在一个节点（？）上处理），因此看起来唯一/最好的方法是通过自定义hadoop InputFormat 用于 .hadoopFile() 在python中。
然而，我找不到一个简单的方法来做这件事。将一个.warc文件拆分为多个条目就像在上拆分一样简单 \n\n\n ; 那么，我如何才能做到这一点，而不是写一吨额外的（无用的）代码显示在各种“教程”在线？这一切能用python完成吗？
i、例如，如何将warc文件拆分为条目而不必使用 wholeTextFiles ?

hadoop python apache-spark

来源：https://stackoverflow.com/questions/40586177/spark-reading-warc-file-with-custom-inputformat

1条答案

按热度按时间

3ks5zfa01#

如果分隔符为 \n\n\n 你可以用 textinputformat.record.delimiter ```
sc.newAPIHadoopFile(
path ,
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.apache.hadoop.io.LongWritable',
'org.apache.hadoop.io.Text',
conf={'textinputformat.record.delimiter': '\n\n\n'}
)

赞(0）回复(0）举报 2021-05-29

我来回答

spark读取自定义inputformat的warc文件

1条答案

相关问题

热门标签

最新问答