这是我的示例.csv文件。我怎样才能找到销售量最高的那一周?
列车.csv:
商店,部门,日期,周销售额,isholiday
1,12010-02-0524924.5,假
112010-02-1246039.49,真
1,12010-02-1941595.55,假
1,12010-02-2619403.54,假
1,12010-03-0521827.9,假
1,12010-03-1221043.39,假
1,12010-03-1922136.64,假
1,12010-03-2626229.21,假
1,12010-04-0257258.43,假
1条答案
按热度按时间pu82cl6c1#
我不会提供代码给你,只是给你的想法。
您可以找到每个Map器的本地最大销售额并发出
(sales,date)
一对。为此,可以使用Map器的清理方法,也可以使用组合器。使用单个减速器
(setNumReduceTasks(1))
,您将在reduce任务中获得所有的局部极大值。在reducer中保持最大销售额并为其发出日期值。