首页 > 如何使用hadoop计算中值

如何使用hadoop计算中值

有一份很大的数据300G+,是JSON格式的,有一个value是数值型,想要得到这个数据的中值要怎么进行统计?
按道理中值计算至少需要一次排序,在mapper里肯定能得到数据的总量,想要做最后的统计肯定是在reducer里,但是reducer去获取mapper的输出,各个reducer的机器计算又是各个机器的,这样的话,就想到把结果获取到本地。这样的话,如果结果太大,本地也是无法处理的,目前的思路是这样,不知道有没有好的方法?
谢谢各位

【热门文章】
【热门文章】