hadoop和supercsv

9w11ddsr 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(310)

我必须处理非常大的文本文件中的数据（比如5 tb的大小）。处理逻辑使用supercsv解析数据并对其运行一些检查。显然，由于规模相当大，我们计划使用hadoop来利用并行计算。我在我的机器上安装了hadoop，开始编写mapper和reducer类，我被卡住了。因为Map需要一个键-值对，所以要读取这个文本文件，我不确定在这个特定场景中应该是什么键和值。有人能帮我一下吗。
我的思维过程是这样的（如果我是正确的，请告诉我）1）使用supercsv读取文件，hadoop为hdfs中的每个文件块生成supercsv bean（我假设hadoop负责分割文件）2）为每个supercsvbean运行我的检查逻辑。

hadoop mapreduce supercsv

来源：https://stackoverflow.com/questions/13075343/hadoop-with-supercsv

1条答案

按热度按时间

oknwwptz1#

数据换行是否分开？i、例如，如果您只是拆分每个换行符上的数据，那么每个块是否总是一条完整的记录？这取决于supercsv如何编码文本，以及实际数据是否包含换行符。
如果是：
只需使用textinputformat。它提供（我认为）字节偏移量作为map键，整行作为值。您可以忽略键，并使用supercsv解析该行。
如果没有：
您必须编写自己的自定义输入格式-这里有一个很好的教程：http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat. 具体的键是什么，值是什么，对Map器的输入没有太大的影响；只需确保其中一个包含所需的实际数据。甚至可以使用nullwriteable作为其中一个的类型。

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop和supercsv

1条答案

相关问题

热门标签

最新问答