Python 处理 excel 表格的问题

今天在处理一个表格的时候，遇到了一个很苦恼的事，表格有一列数据是用户申请日志记录（有重复的申请内容），其中有正常的申请和不正常的，不正常的大多是在正常提交的句子里随机插入数字和标点，还有一些是随机乱打的文字，一眼就能看出来，手动删除也可以，但是整个文件有 3 万多条数据，V 友们有什么好的处理方法吗

表格

正常

申请

Python

7 条回复 • 2019-12-11 08:44:32 +08:00

kokutou

2019-12-05 18:02:14 +08:00 via Android

正则表达式提取出来放到另一列，然后本列内直接删除。
最后再看看准确率如何，
多调几次，然后整列删除。

TimePPT

2019-12-05 18:53:36 +08:00

如果没啥特别规律可循的话……抽个三五百条自己标下，然后上贝叶斯过滤器？

factoid

2019-12-05 19:43:42 +08:00 via iPhone

先正则匹配一波，然后在人工查看，手工删除

necomancer

2019-12-09 00:31:13 +08:00

1. 先用正则表达式去掉包含非法字符的。
2. 自己找出来一二百条垃圾信息，一二百条好信息，做个分类器。
简单的流程是先做特征提取，再做个逻辑回归，或者支持向量机分类。文本特征提取的方法百度一下有很多。只是在学习的时候做过英文的垃圾邮件过滤器。中文不知道具体该咋弄……但应该有很多现成的工具吧，去 github 找找~~

smartG

2019-12-10 00:12:21 +08:00 via iPhone

@necomancer 多谢老哥解答，不过迫于技术渣，只用过 Python 的一些基本库，逻辑回归听着好深奥啊

necomancer

2019-12-11 08:35:05 +08:00

@smartG 逻辑回归是个统计学习方法，sckipy, sklearn 都有现成的库。不熟悉 python 的话，其他很多语言比如 R, matlab, mathematica 啥的也都有实现。

necomancer

2019-12-11 08:44:32 +08:00

刚搜了一下，excel 也有人做逻辑回归。只要把你需要处理的信息文本提取特征，也就是转成一堆数字就行。这个得去网上找点啥类似 word2vec, 结巴分词啥的，貌似 pip install jieba word2vec 就能装，调用也挺简单，随便找个博客看看应该简单用起来没啥问题。