假设,必须分析大量的web服务器访问日志。这些日志是文本文件,它们每行登记一个访问权限。第一列(用空格分隔)包含所访问页面的url。其目的是创建一个报告,列出所有的网址连同点击数。如何为每个步骤编写伪代码?
zysjyyx41#
基本上你所做的只是字数统计,但与网址。直接从教程中删除“psudeocode”。
class Mapper { final IntWritable ONE = new IntWritable(1); map(LongWritable key, Text value, Context context) { String[] columns = value.split(" "); String url = columns[0]; context.write(url, ONE); } }class Reducer { IntWritable result = new IntWritable(); reduce(Text key, Iterable<IntWritable> values, Context context) { int sum = sum(values); result.set(sum); context.write(key, result); }}
class Mapper {
final IntWritable ONE = new IntWritable(1);
map(LongWritable key, Text value, Context context) {
String[] columns = value.split(" ");
String url = columns[0];
context.write(url, ONE);
}
class Reducer {
IntWritable result = new IntWritable();
reduce(Text key, Iterable<IntWritable> values, Context context) {
int sum = sum(values);
result.set(sum);
context.write(key, result);
1条答案
按热度按时间zysjyyx41#
基本上你所做的只是字数统计,但与网址。
直接从教程中删除“psudeocode”。