spark读取自定义inputformat的warc文件

bvuwiixz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(514)

我需要通过spark处理一个.warc文件,但是我似乎找不到一个简单的方法。我更喜欢使用python,而不是通过rdd将整个文件读入 wholeTextFiles() (因为整个文件将在一个节点(?)上处理),因此看起来唯一/最好的方法是通过自定义hadoop InputFormat 用于 .hadoopFile() 在python中。
然而,我找不到一个简单的方法来做这件事。将一个.warc文件拆分为多个条目就像在上拆分一样简单 \n\n\n ; 那么,我如何才能做到这一点,而不是写一吨额外的(无用的)代码显示在各种“教程”在线?这一切能用python完成吗?
i、 例如,如何将warc文件拆分为条目而不必使用 wholeTextFiles ?

3ks5zfa0

3ks5zfa01#

如果分隔符为 \n\n\n 你可以用 textinputformat.record.delimiter ```
sc.newAPIHadoopFile(
path ,
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.apache.hadoop.io.LongWritable',
'org.apache.hadoop.io.Text',
conf={'textinputformat.record.delimiter': '\n\n\n'}
)

相关问题