下面的问题比hadoop更符合mapreduce。我需要知道如何在下面的用例中使用hadoop。
用例:从一个tsv文件中读取1000万条记录(每条记录有20列),并为每条记录生成一个pdf。
我有以下单元课程可供选择。
程序描述:一个静态方法,它接受一个java对象(表示一条记录),并返回一个filepath字符串(创建的pdf)。
程序名:pdfutil.createpdf(record record)-返回文件路径字符串。
在map方法中我应该做什么,在reduce方法中我应该做什么。如果我在mapper的map方法中调用pdfutil.createpdf方法,我应该在reducer的reduce方法中做什么。?
1条答案
按热度按时间5n0oy7gb1#
@suresh:yes you 可以在map reduce中编码而不使用reduce方法。
只需编写map方法,使用它调用pdfutil.createpdf。
有一件事我很困惑,你需要一个pdf文件每个记录?