如何使用hadoop从csv文件中读取1000万条记录,并为每条记录创建pdf

pu3pd22g  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(280)

下面的问题比hadoop更符合mapreduce。我需要知道如何在下面的用例中使用hadoop。
用例:从一个tsv文件中读取1000万条记录(每条记录有20列),并为每条记录生成一个pdf。
我有以下单元课程可供选择。
程序描述:一个静态方法,它接受一个java对象(表示一条记录),并返回一个filepath字符串(创建的pdf)。
程序名:pdfutil.createpdf(record record)-返回文件路径字符串。
在map方法中我应该做什么,在reduce方法中我应该做什么。如果我在mapper的map方法中调用pdfutil.createpdf方法,我应该在reducer的reduce方法中做什么。?

5n0oy7gb

5n0oy7gb1#

@suresh:yes you 可以在map reduce中编码而不使用reduce方法。
只需编写map方法,使用它调用pdfutil.createpdf。
有一件事我很困惑,你需要一个pdf文件每个记录?

相关问题