关于顺丰的智能拆分地址，请教如何实现的？

This topic created in 3193 days ago, the information mentioned may be changed or developed.

在微信直接复制姓名，手机号码，收件地址，系统可以智能的把他们都区分出来，在测试当中，使用了几种方法，拆分都很准确，是否有了解这块的朋友，详细介绍下，

1、手机号姓名地址中间无任何分割号，逗号，回车等，可以拆分
2、手机号姓名地址无前后顺序，可以拆分

Supplement 1 · Sep 29, 2017

感谢 @ipconfiger，截帖

拆分

手机号

地址

姓名

24 replies • 2019-09-03 12:31:14 +08:00

jadec0der

Sep 29, 2017

https://zh.wikipedia.org/zh-hans/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86

ipconfiger

Sep 29, 2017

简单点的可以用结巴分词来实现, 先分词, 然后区分词性, 针对地址这类你可以先用全国行政单位数据库来构建一个结巴的词库, 姓名也是, 电话号码什么的最容易识别, 可以单独提前提取出来

movistar

Sep 29, 2017

不需要通过分词解决这种问题
实际上这是一个可穷举的场景
省市县乡街道数据都是现成的,直接穷举即可,从高到低的范围依次向下匹配

QAPTEAWH

Sep 29, 2017

也可能是请了很多初中生...

v9ex

Sep 29, 2017

@ipconfiger 谢谢，去研究下

@jadec0der 大方向？

@movistar 但是省市区实际上相互中间都有重名的，比如广东省，排除省这个字，还有市区里面也有广东字样的

@QAPTEAWH 请教下初中生的费用 /条

v9ex

Sep 29, 2017

@ipconfiger 非常感谢，已经解决

govtoex

Sep 29, 2017 via Android

为啥我首先想到的是正则...

kdwycz

Sep 29, 2017

还有个思路是调用地图的 API，搜索结果就是格式化的数据

kdwycz

Sep 29, 2017

名字电话的话= = 电话很好识别出来，名字一般和电话离得很近。。。吧（粗略思路）

takato

Sep 29, 2017

深度学习兴起以后的 NLP，大致上可以认为，词性分析其实是一个降低准确率的行为。。。

现在的姿势都是如下的：
给字编 ID，变成字典
将一句话变成一串数字放进模型，指定好每一组数据正确的结果
训练

然后对输入的数据做预测就可以了，相对来说还会比不分词的准确率高一些。

virusdefender

Sep 29, 2017

其实是有个人在后台帮你拆分开的

jadec0der

Sep 29, 2017

如果是人工做的话差不多一毛一条吧，不过响应时间只能做到秒级了 →_→

kevinzhwl

Sep 30, 2017 via iPhone

@v9ex 这个穷举应该是有一定条件限制的，比如第一个是省级行政单位，最多是地级市，而且你输入的地址分段的个数已经暗示了第一个是省级，然后后面的会在这个限制下继续查找，也就可以大部分排除了重名的情况

v9ex

Sep 30, 2017

@kevinzhwl 但是很多用户输入地址，不填写省市区几个字的，三级应该都有重名的现象

lixile

Sep 30, 2017

我来吐槽一下之前咸鱼上的发货信息复制出来是带收件人：XXX 的
结果居然不能识别出收件人是谁我表示差评！

kevinzhwl

Oct 1, 2017

@v9ex 单纯看 3 级是有重名的，但基于 1，2 级的 3 级是没有的。地址库 /表一般都是树形结构存放，有分级、上下关系等内容的

1GB

Nov 2, 2017

@v9ex 你好，想请教下最后你们拆分地址是什么做的呢

v9ex

May 3, 2018

@1GB 结巴解决方案不是很完善,继续跟进

kaiser1992

Nov 1, 2018

有能把方案详细阐述一下的吗

eijnix

Nov 24, 2018

能说下最后是怎么做的么？

kaiser1992

Nov 27, 2018

挖个坟，求大佬翻牌

v9ex

Nov 27, 2018

@kaiser1992 github 搜索结巴分词即可

kaiser1992

Nov 27, 2018

@v9ex 好的，谢谢，我再想想

izoabr

Sep 3, 2019

去 gayhub 上找了一下，发现这个的效果还不错。
https://github.com/wzc570738205/smart_parse