1
leavic 2015-08-18 14:53:12 +08:00 1
不是太清楚你说的垃圾信息是什么,我好像没看到。
但如果要 antispam ,前提是搜集足够多的 spam 样本,有足够多的样本之后, antispam 只需要用贝叶斯就可以搞定大部分了。 可是如何设定一个定义为 spam 的阈值又是个很头痛的问题,如何保证完全的过滤能力同时又不误伤正常的信息发布,这从贝叶斯方法的原理上就决定了几乎是个悖论,即使 gmail 也会把正常邮件当作垃圾邮件处理,而垃圾邮件可能会漏网进入收件箱。 考虑到知乎这隔三差五挂掉的状态,还是跟新浪微博借 5000 审查专员比较快。 |
2
yylzcom 2015-08-18 14:58:55 +08:00 1
akismet 好, akismet 普渡众生……
|
3
EchoChan OP |
5
manhere 2015-08-18 15:22:55 +08:00
知乎反广告就是个笑话,参见:
http://www.zhihu.com/people/andychu66 |
6
yylzcom 2015-08-18 15:24:27 +08:00
@leavic 刚在另外一贴回复你 [:激动:]
akismet 就易用性,用户体验 /拦截成功率来说,我觉得是目前最好的。可能是我见识少和对易用性理解不同。人工发帖只要是大规模发类似内容, akismet 还是能做到不错的拦截率。 如果是软文那样的或者签名带个小尾巴的小规模 spam , akismet 可能的确会乏力…… |
7
leavic 2015-08-18 15:42:40 +08:00
@yylzcom 因为在 wordpress 上用 akismet 确实过滤了几乎所有的机器人 spam ,但几个明显人工发送的 spam 就没有挡住,所以我猜测 akismet 是利用了 wordpress 庞大的评论数据统计(包括对人工标志 spam 的内容进行学习),以此来建立他们精准的过滤规则。
spam 数据获得之后我想他们也是用了贝叶斯之类的方法的,说真的,贝叶斯很简单但真的太有用了。 问题就在于,知乎的 spam 内容和 wordpress blog 的 spam 内容可能是有很大差距的,转译过来说, spam 的特征向量在空间距离上差距很大,所以 akismet 能否直接应用在知乎上还未可知。 akismet 的工作原理不是很公开(当然可以理解,否则 spam 就猖狂了),我只是猜测它是个比较专门化的针对 blog 的过滤体系。 |
8
ehs2013 2015-08-18 15:43:57 +08:00
其实对于中文博客,现在很普遍的做法不是屏蔽所有纯英文评论吗 233
|
9
elviscai 2015-08-18 15:48:11 +08:00
知乎不是号称人工审核么,结果每次举报最后都觉得自己是个傻[哔~]……
越点越傻……所以后来就不点了…… |