看到知乎现在不断地被刷垃圾信息，想请问一下 antispam 的工作难做吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3496 天前的主题，其中的信息可能已经有所发展或是发生改变。

antispam

请问

垃圾

信息

11 条回复 • 2015-08-18 16:32:38 +08:00

leavic

2015-08-18 14:53:12 +08:00

不是太清楚你说的垃圾信息是什么，我好像没看到。
但如果要 antispam ，前提是搜集足够多的 spam 样本，有足够多的样本之后， antispam 只需要用贝叶斯就可以搞定大部分了。
可是如何设定一个定义为 spam 的阈值又是个很头痛的问题，如何保证完全的过滤能力同时又不误伤正常的信息发布，这从贝叶斯方法的原理上就决定了几乎是个悖论，即使 gmail 也会把正常邮件当作垃圾邮件处理，而垃圾邮件可能会漏网进入收件箱。

考虑到知乎这隔三差五挂掉的状态，还是跟新浪微博借 5000 审查专员比较快。

yylzcom

2015-08-18 14:58:55 +08:00

akismet 好， akismet 普渡众生……

EchoChan

2015-08-18 15:12:13 +08:00

@leavic http://www.zhihu.com/log/questions
原来贝叶斯可以这么用，哎，学习没学好。

leavic

2015-08-18 15:17:02 +08:00

@yylzcom akismet 在防机器人上是很好的，碰上人工发帖的就很弱了。

manhere

2015-08-18 15:22:55 +08:00

知乎反广告就是个笑话，参见：
http://www.zhihu.com/people/andychu66

yylzcom

2015-08-18 15:24:27 +08:00

@leavic 刚在另外一贴回复你 [:激动:]
akismet 就易用性，用户体验 /拦截成功率来说，我觉得是目前最好的。可能是我见识少和对易用性理解不同。人工发帖只要是大规模发类似内容， akismet 还是能做到不错的拦截率。

如果是软文那样的或者签名带个小尾巴的小规模 spam ， akismet 可能的确会乏力……

leavic

2015-08-18 15:42:40 +08:00

@yylzcom 因为在 wordpress 上用 akismet 确实过滤了几乎所有的机器人 spam ，但几个明显人工发送的 spam 就没有挡住，所以我猜测 akismet 是利用了 wordpress 庞大的评论数据统计(包括对人工标志 spam 的内容进行学习)，以此来建立他们精准的过滤规则。

spam 数据获得之后我想他们也是用了贝叶斯之类的方法的，说真的，贝叶斯很简单但真的太有用了。
问题就在于，知乎的 spam 内容和 wordpress blog 的 spam 内容可能是有很大差距的，转译过来说， spam 的特征向量在空间距离上差距很大，所以 akismet 能否直接应用在知乎上还未可知。

akismet 的工作原理不是很公开(当然可以理解，否则 spam 就猖狂了)，我只是猜测它是个比较专门化的针对 blog 的过滤体系。

ehs2013

2015-08-18 15:43:57 +08:00

其实对于中文博客，现在很普遍的做法不是屏蔽所有纯英文评论吗 233

elviscai

2015-08-18 15:48:11 +08:00

知乎不是号称人工审核么，结果每次举报最后都觉得自己是个傻[哔~]……

越点越傻……所以后来就不点了……

EchoChan

2015-08-18 16:23:21 +08:00

@elviscai 关闭首页新特性，关注一些优秀的人，时间线就不会被污染了。
只是想去某些话题下看问题还是会遇到垃圾信息。

elviscai

2015-08-18 16:32:38 +08:00

@EchoChan 默认不进首页，不想关注人，只看话题……