V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  9hills  ›  全部回复第 39 页 / 共 354 页
回复总数  7080
1 ... 35  36  37  38  39  40  41  42  43  44 ... 354  
2016-09-08 13:15:44 +08:00
回复了 SeedMssP 创建的主题 推广 如何抓包分析报文防护 DDoS 攻击?
看完全文发现就是一个特征匹配。。和 ML 有什么关系?
2016-09-08 12:03:31 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
恰好前不久用 13 台机器+Spark 做了一个排序

100G 的原始数据,需要接近 40min
但是如果用 分布式去重算法的话, 1min 以内

有的时候不能盲目 MR ,盲目 Spark ,不先自己思考下
2016-09-08 11:46:24 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@Magic347 再说资源, lz 不过 1 亿条未去重数据,按照 hash 来说 8G 足够了。这个就是一个正确的解决方法

你说有其他解决办法, OK , code 拿出来 看看,在 8G 内存条件下,看谁更快
2016-09-08 11:44:30 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@Magic347 Talk is cheap , show me your code 。

别 TB , PB ,你就写个 3000w 行排序去重给我看看,呵呵

事实上,你以为 hash 不能分布式扩展?去重一定要排序?呵呵
2016-09-08 07:58:18 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
地图炮下,假如这是一个面试题目,凡是说排序的,统统不得分

做个简单的测试,首先生成 3000w 行随机数,去重后是 1000w
seq 1 10000000 > 1000w
cat 1000w 1000w 1000w > 3000w
shuf 3000w > 3000w.shuf

然后用 awk hash 的方法去做去重。结果如下

资源占用: 1G 内存, E5-2650 v3 @ 2.30GHz 一个核
时间消耗: 35s

$ time awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out
awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out 34.12s user 0.95s system 99% cpu 35.107 total


说排序的,谁能用单机排序去重做到 35s ?
2016-09-07 18:18:20 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@9hills 这里有个错误, hash 表的大小是和最终去重后的条目有关的,和原始数据条目无关
2016-09-07 18:17:09 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@xderam 用 awk 就行了,不需要 uniq 。因为原理是 hash 表

1 亿条数据(和大小无关,和条数有关), 8G 内存应该差不多。 80B 一条,可能刚刚好
提高一下难度,怎么存储信息让图片打印出来依然不丢失信息
2016-09-07 16:54:53 +08:00
回复了 coltguo 创建的主题 问与答 猛然间发现 V2EX 都是 Python 的天下
因为只会 Python ,其他语言长时间不写都忘了
修改 tablename 如果我没记错的话,应该是在 model,类开头加__tablename__ ="xxxxxxx",

这样表名就不冲突了
2016-09-07 16:37:12 +08:00
回复了 shyrock 创建的主题 职场话题 另一个角度看 996
@flydogs 这个事实上还真是这样,加入 WTO 有个承诺就是实现双休日和有偿加班
2016-09-07 14:18:59 +08:00
回复了 Nexvar 创建的主题 Docker 多个物理主机之间,docker 怎么互联和交互的?
@SmiteChow 我是前面一类,可能更加过一些。有些需求如果可以用非工程的办法解决,那就不用工程的办法。

再举个例子,比如某人做的答题卡识别的召回率比较低,只有 99.9%,也就是 一千份卷子中的一份需要人工识别
而从 99.9% 改进到 99.99%,可能需要耗时一个 RD 7 个工作日,价值 3000 块。

但是卷子总量只有 100w 份,也就是人工需要识别 1000 份,随便招个临时工一会就弄完了,价值 300 块。


那我会选择 2 ,只有当 2 的成本大于 1 的时候,才会选择 1
@sgissb1 得了吧,就一个背后祥林嫂,还巴巴的不断回复找其他人的认同感,这是心理多脆弱。。
@sgissb1 80w /year 只是弥补和像你一样的同事共事的精神补偿金。

另外我终于发现我为什么看到这个帖子立刻很反感,细看了下,原来是喜欢背后同事坏话,这种很 Low 的行为,我只能希望你同事不上 V
2016-09-07 13:45:49 +08:00
回复了 Nexvar 创建的主题 Docker 多个物理主机之间,docker 怎么互联和交互的?
Overlay network : Docker 最新版官方支持,基于 VxLan
Calico: 纯三层解决办法,简单好用性能好
Flannel :基于 VxLan or UDP tunnel(把 UDP 当成 IP 层)
Weave :同上,但是自己带了一个 DNS

我个人建议在 Overlay Network 和 Calico 中选择一个,使用 docker 的 network plugin
@canautumn 呵呵,你自己去看你的发言和我的留言

你的:答题卡识别是个科学问题,用 OpenCV 很快能写出来不错;

我的:答题卡的准确率 openCV 没有太大的问题,难点是召回率

哦,好像都省略了『 API 』,只允许你省略,不允许我省略
@canautumn OK ,你要认真,我可以给你详细写下,希望以后多学语文

OpenCV 自带的方法+简单的数学处理,就可以实现传统答题卡的高准确率识别,但是召回率需要各种优化

另外 OpenCV 不是一个框架,你可以理解是一个 interface 集合,和框架是完全不同的两回事
@canautumn 答题卡的准确率 openCV 没有太大的问题,难点是召回率

但是工程上是可以接受比较低的召回率的
@sgissb1 另外既然您光临了我 4 、 5 年没更新的 github ,我也看了下您的发帖历史(有个帖子还有简历)
大概了解了技术水平,不过看这个帖子从开始就充满的那种奇怪的感觉,道不同不相为谋。

另外絮叨几句,工程实践就是在投入产出中进行平衡,你可以拿答题卡识别各种转进,找各种场景。但是实际上并没有任何的卵用,因为有更简单,更省成本的方案。

比如你说有人随便瞎涂答题卡,要如何如何识别。你知道以前我们高中怎么解决的么,答题卡上乱写乱画直接 0 分。
1 ... 35  36  37  38  39  40  41  42  43  44 ... 354  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2568 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 58ms · UTC 02:38 · PVG 10:38 · LAX 18:38 · JFK 21:38
Developed with CodeLauncher
♥ Do have faith in what you're doing.