Hadoop 中使用 Hashmap 统计词频，会重复，求大神帮忙，在线等，挺急的

This topic created in 2874 days ago, the information mentioned may be changed or developed.

在写 Hadoop 的一个作业，改写 wordcount 程序，要求统计每个词在不同文件中出现的次数。
我的思路是，mapper 中每个词作为 key，每个词的文件名作为 value
在 reducer 中，对 values 用 hashmap 统计文件名出现的次数。最后遍历 hashmap。
例如两个文件 a.txt ,b.txt
a.txt
apple banana apple
b.txt
banana
对应 apple 这个 key，hashmap 应该的结果是{a.txt=2}
对应 banana 这个 key，hashmap 应该的结果是{a.txt=1,b.txt=1}
但是我得到的结果是{{a.txt=2}=1}
{{a.txt=1}=1,{ b.xtx=1}=1}
看起来好像是每一个 hashmap 都重复操作了一次
我去找我们老师，老师也找不到 bug。只好上来问大神。

txt

hashmap

Banana

Apple

6 replies • 2019-05-26 09:44:07 +08:00

shaohan0228

Aug 23, 2018

wordcount 只照着基本例子超了一遍，key 文件名; value Map key 为单词，value 为词频，这样行么

louxinbo

Aug 23, 2018

@shaohan0228 谢谢回复。断句有点迷糊。能不能再解释下。谢了

louxinbo

Aug 23, 2018

我的 reducer 的代码，麻烦大家给看看，到底哪儿出错了。reduce 输入的 key 就是单词，输入的 values 就是文件名。
public class IntSumReducer
extends Reducer<Text,Text,Text,Text> {
private Text result = new Text();

public void reduce(Text key, Iterable<Text> values,
Context context
) throws IOException, InterruptedException {
Map<String,Integer> m = new HashMap<String,Integer>();
int count;
for (Text val : values) {
if(m.get(val.toString())!=null) {
count = m.get(val.toString())+1;
}else {
count = 1;
}
m.put(val.toString(), count);
}
result.set(m.toString());
context.write(key, result);

}
}

jieee

Aug 23, 2018

词和文件名做 key

louxinbo

Aug 23, 2018

@jieee 谢谢。词和文件名做 key，问题解决了。

cangxiao

May 26, 2019

我觉得这个 reduce 没有什么问题啊，为什么会出现{{a.txt=1}=1,{ b.xtx=1}=1}这种结果呢？楼主现在应该是知道了吧，跟我讲讲吧！