1
benjiam OP 木有办法贴图。 只能贴点文字
|
2
benjiam OP |
3
hahastudio 2014-11-27 22:24:06 +08:00 1
你这个看来可以部署到多台机器上?挺有意思
我之前看到了这篇文章: https://medium.com/@thechriskiehl/parallelism-in-one-line-40e9b2b36148 之后也手滑了一个 400 行以内的 MapReduce 模型,不过是单机版的 https://gist.github.com/hahastudio/401ff4dc382ad75e4d3f |
4
benjiam OP 我只是学习hadoop 时候,顺手写写。 可惜我python很弱,所以代码也比较业余。
从mapreduce来看,多机的实现的关键 需要一个分布式的文件系统,其次需要一个全局的监控节点。 如果 简单的加个多机监控节点,用restful 接口替代本地文件接口的话。我的框架是可以多机并行跑的。但是速度未必会快。 |
5
benjiam OP 明天一早发微博 欢迎帮转 @如此玄妙
|
6
2232588429 2014-11-28 07:09:37 +08:00 via iPhone
收藏一个,慢慢学习
|
7
helloworld00 2014-11-28 07:13:16 +08:00
如果只是简单任务并行化的话mapreduce跟mpi几乎没有区别
mapreduce这一套关键在于把并行化里面可能出现的问题都有一整套相应的解决方案(例如stragger,failure用heartbeat和specuative tasks)解决了,从而使得程序员可以专注于处理写复杂的数据处理程序而不是操心太多并行分布式的东西。。。 |
8
benjiam OP mapreduce最大的创新是认为业务是靠map 和reduce可以完成的。mpi只是把任务分布去做。mpi是可以解决所有问题的,map不是。
|
9
gateswong 2014-11-29 11:13:35 +08:00 via iPad
python里可以用colander库做dict的序列化工作
|
10
benjiam OP 我用了 pickle 做序列化。
|
11
benjiam OP 目标
1) 多机部署 2) window linux 同时支持 3) 至少性能上要比sort 更快! |