首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
这是一个专门讨论 idea 的地方。
每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。
那这个时候,不妨可以把那些 idea 分享出来,启发别人。
广告
V2EX
›
奇思妙想
关于目前中文关键字过滤的方式
pkookp8
·
2019-05-13 18:53:09 +08:00
via Android · 2845 次点击
这是一个创建于 2014 天前的主题,其中的信息可能已经有所发展或是发生改变。
1.正则
2.特定关键字
3.机器学习?
对于 1,规则不好维护,并且有人想特意绕过也不是不能做到,比如使用火星文,同音字
对于 2,没有语意分析,会导致例如添加了关键字[成人]
等这人参果长成人型 这句话的成人被屏蔽
对于 3 不了解,大概是基于统计学,如果没有初始的学习数据,而且很难说得清为什么一句话被过滤出来
有没有现成的,针对中文进行拆字和注音,依据字形或读音来进行过滤
可以一定程度上减少火星文,同音字的垃圾内容
仅讨论技术
同音
过滤
成人
统计学
1 条回复
1
zgcwkj
2019-05-15 14:18:03 +08:00
目前基本上是正则加关键字过滤,无论中文还是英文。
因为大脑比写死的程序强,所以如果要别较厉害的话,可以尝试机器学习,但你又懂得多少呢?
还不如按照大家的方式来的快!(当然你也可以自己研究)
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
1124 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms ·
UTC 19:07
·
PVG 03:07
·
LAX 11:07
·
JFK 14:07
Developed with
CodeLauncher
♥ Do have faith in what you're doing.