拆分级联hadoop文件加载方法处理跨换行记录？

wd2eg0qa 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(346)

我正在使用hadoop来处理分布在jvm示例集群中的一些文件。
我正在使用级联库来连接hadoop。
我想解析一个文本文件，其中记录跨换行并以句点（.）终止
（我知道这太小了，hadoop的好处还没有实现——我正在做一个演示）。
据我所知，我需要编写一个自定义的inputformat来处理这个问题。
我的问题是-最好是：
（a）对输入数据进行预处理，去掉换行符，然后在每条记录结束后插入换行符？
（b）编写自定义输入格式？

我说的“更好”是指更少的工作和更地道的语言。

hadoop split cascading newline record

来源：https://stackoverflow.com/questions/14150763/cascade-hadoop-file-loading-method-to-deal-with-records-crossing-a-newline

1条答案

按热度按时间

kokeuurv1#

实际上是由您根据自己的需求权衡每种方法的利弊。但就我个人而言，我建议您编写一个定制的inputformat和recordreader来读取您的输入数据，前提是您必须编写预处理应用程序来转换单一类型的文本文件（记录跨换行并以句点结束）。如果您希望将来出现更多非正统的文本文件格式，那么预处理器将是理想的，这样预处理器就可以在发送到map/reduce之前将所有不同的格式转换为中间格式。
阅读本教程了解如何编写自定义inputformat和recordreader。

赞(0）回复(0）举报 2021-06-03

我来回答

拆分级联hadoop文件加载方法处理跨换行记录？

我说的“更好”是指更少的工作和更地道的语言。

1条答案

相关问题

热门标签

最新问答