今天在处理一个表格的时候,遇到了一个很苦恼的事,表格有一列数据是用户申请日志记录(有重复的申请内容),其中有正常的申请和不正常的,不正常的大多是在正常提交的句子里随机插入数字和标点,还有一些是随机乱打的文字,一眼就能看出来,手动删除也可以,但是整个文件有 3 万多条数据,V 友们有什么好的处理方法吗
1
kokutou 2019-12-05 18:02:14 +08:00 via Android
正则表达式提取出来放到另一列,然后本列内直接删除。
最后再看看准确率如何, 多调几次,然后整列删除。 |
2
TimePPT 2019-12-05 18:53:36 +08:00
如果没啥特别规律可循的话……抽个三五百条自己标下,然后上贝叶斯过滤器?
|
3
factoid 2019-12-05 19:43:42 +08:00 via iPhone
先正则匹配一波,然后在人工查看,手工删除
|
4
necomancer 2019-12-09 00:31:13 +08:00
1. 先用正则表达式去掉包含非法字符的。
2. 自己找出来一二百条垃圾信息,一二百条好信息,做个分类器。 简单的流程是先做特征提取,再做个逻辑回归,或者支持向量机分类。文本特征提取的方法百度一下有很多。只是在学习的时候做过英文的垃圾邮件过滤器。中文不知道具体该咋弄……但应该有很多现成的工具吧,去 github 找找~~ |
5
smartG OP @necomancer 多谢老哥解答,不过迫于技术渣,只用过 Python 的一些基本库,逻辑回归听着好深奥啊
|
6
necomancer 2019-12-11 08:35:05 +08:00
@smartG 逻辑回归是个统计学习方法,sckipy, sklearn 都有现成的库。不熟悉 python 的话,其他很多语言比如 R, matlab, mathematica 啥的也都有实现。
|
7
necomancer 2019-12-11 08:44:32 +08:00
刚搜了一下,excel 也有人做逻辑回归。只要把你需要处理的信息文本提取特征,也就是转成一堆数字就行。这个得去网上找点啥类似 word2vec, 结巴分词啥的,貌似 pip install jieba word2vec 就能装,调用也挺简单,随便找个博客看看应该简单用起来没啥问题。
|