在微信直接复制姓名,手机号码,收件地址,系统可以智能的把他们都区分出来,在测试当中,使用了几种方法,拆分都很准确,是否有了解这块的朋友,详细介绍下,
1、手机号姓名地址中间无任何分割号,逗号,回车等,可以拆分
2、手机号姓名地址无前后顺序,可以拆分
1、手机号姓名地址中间无任何分割号,逗号,回车等,可以拆分
2、手机号姓名地址无前后顺序,可以拆分
1
jadec0der Sep 29, 2017
|
2
ipconfiger Sep 29, 2017 简单点的可以用结巴分词来实现, 先分词, 然后区分词性, 针对地址这类你可以先用全国行政单位数据库来构建一个结巴的词库, 姓名也是, 电话号码什么的最容易识别, 可以单独提前提取出来
|
3
movistar Sep 29, 2017
不需要通过分词解决这种问题
实际上这是一个可穷举的场景 省市县乡街道数据都是现成的,直接穷举即可,从高到低的范围依次向下匹配 |
4
QAPTEAWH Sep 29, 2017 也可能是请了很多初中生...
|
5
v9ex OP @ipconfiger 谢谢,去研究下
@jadec0der 大方向? @movistar 但是省市区实际上相互中间都有重名的,比如广东省,排除省这个字,还有市区里面也有广东字样的 @QAPTEAWH 请教下初中生的费用 /条 |
6
v9ex OP @ipconfiger 非常感谢,已经解决
|
7
govtoex Sep 29, 2017 via Android
为啥我首先想到的是正则...
|
8
kdwycz Sep 29, 2017
还有个思路是调用地图的 API,搜索结果就是格式化的数据
|
9
kdwycz Sep 29, 2017
名字电话的话= = 电话很好识别出来,名字一般和电话离得很近。。。吧(粗略思路)
|
10
takato Sep 29, 2017
深度学习兴起以后的 NLP,大致上可以认为,词性分析其实是一个降低准确率的行为。。。
现在的姿势都是如下的: 给字编 ID,变成字典 将一句话变成一串数字放进模型,指定好每一组数据正确的结果 训练 然后对输入的数据做预测就可以了,相对来说还会比不分词的准确率高一些。 |
11
virusdefender Sep 29, 2017
其实是有个人在后台帮你拆分开的
|
12
jadec0der Sep 29, 2017
如果是人工做的话差不多一毛一条吧,不过响应时间只能做到秒级了 →_→
|
13
kevinzhwl Sep 30, 2017 via iPhone
@v9ex 这个穷举应该是有一定条件限制的,比如第一个是省级行政单位,最多是地级市,而且你输入的地址分段的个数已经暗示了第一个是省级,然后后面的会在这个限制下继续查找,也就可以大部分排除了重名的情况
|
15
lixile Sep 30, 2017
我来吐槽一下 之前咸鱼上的发货信息复制出来是带 收件人:XXX 的
结果 居然不能识别出收件人是谁 我表示 差评! |
19
kaiser1992 Nov 1, 2018
有能把方案详细阐述一下的吗
|
20
eijnix Nov 24, 2018
能说下最后是怎么做的么?
|
21
kaiser1992 Nov 27, 2018
挖个坟,求大佬翻牌
|
22
v9ex OP @kaiser1992 github 搜索结巴分词即可
|
23
kaiser1992 Nov 27, 2018
@v9ex 好的,谢谢,我再想想
|
24
izoabr Sep 3, 2019
去 gayhub 上找了一下,发现这个的效果还不错。
https://github.com/wzc570738205/smart_parse |