比如:"首尔市江南区永东大路亚洲会议塔" 目前想到的是 先分词,然后再找一份世界主要城市国家映射表进行匹配 用 jieba 分词,得到的结果是首尔 /市 /江南 /区 /永 /东大路 /亚洲 /会议 /塔 接下来依次用这些词在映射表中匹配,第一个匹配到就返回
但是目前还没找到靠谱的国家城市映射表,大家有做过的,诚心求教~~
1
opengps 2020-09-26 12:00:23 +08:00 via Android 2
用地图的 api
|
2
huayumo 2020-09-26 12:37:33 +08:00 1
这种分词不行,说实话我也在考虑这种,来大数据分类每个市县的新闻,国内的直接行政区来分类,国外的感觉应该也一样,别用分词的,行政区划的比较准
|
3
BrettD 2020-09-26 12:54:30 +08:00 via iPhone 1
加拿大也有地方叫伦敦
|
4
imn1 2020-09-26 12:56:06 +08:00 1
没必要分词,地址一般都是有顺序的,要么大到小,要么小到大,你的目的只是城市-->国家,找到一端前 N 个字符就够了
找 geo 数据库就有映射表了,网上有 open 的 |
5
hakono 2020-09-26 13:15:12 +08:00 via Android 1
谷歌地图 api,很好用
需求数量多了的话需要收费就是了 记得做好缓存之类的 |
6
shiji 2020-09-26 13:24:52 +08:00 via iPhone 1
美国有三个城市都叫纽瓦克
美国也有城市叫温哥华 单靠分词肯定不行 |
12
Ptu2sha 2020-09-26 14:47:52 +08:00 1
国内我还遇到 去过 A 市登记了家庭地址
然后 A 市的某个派出所就打电话来 因为我家地址某部分和他们辖区匹配上了。。。 |
13
xuanbg 2020-09-26 16:15:37 +08:00 1
非结构化的地址自动处理成结构化地址是有一定的错误率的,楼主你把错误的抛出来人工处理或者干脆丢弃就行。
|
15
ericbize 2020-09-26 17:22:32 +08:00 via iPhone 1
丢到谷歌地图, 获取经纬度
|
16
helloworld000 2020-09-26 18:54:53 +08:00 1
|
17
bellchu 2020-09-26 19:17:46 +08:00 via iPhone 1
我很多年前一名的时候有人问我是不是去澳洲,我说不是啊。对面很疑惑的看着我问,“那你为什么申请资料寄到悉尼?”
|
18
bellchu 2020-09-26 19:18:02 +08:00 via iPhone 1
*移民
|
21
wdg8106 OP @helloworld000 多谢,我在网上下了个城市国家信息表,还是想先从这方面入手,如果精确度不够再考虑谷歌 api
|
23
bellchu 2020-09-26 21:29:01 +08:00 1
你可以优先 extract 字段中的邮编,可以相对准确的判断国家。
|
24
uuiitwp 2020-09-26 23:51:53 +08:00 via Android 1
典型的地理编码 /逆地理编码问题
|
25
Pythondr 2020-09-27 00:11:03 +08:00 via iPhone 1
一般的地图服务都有地址标准化的 API,可以看下高德开放平台
|
26
cheng6563 2020-09-27 01:24:57 +08:00 1
google 地图的 api,免费额度不够可以多开几个账号均衡负载
|
27
winterbells 2020-09-27 08:16:40 +08:00 via Android 1
我们之前用的是谷歌地图搜索
搜索完了它会自动将坐标放进 URL,取出来就是,也没什么免费额度之说。 |
28
fhsan 2020-09-27 08:19:12 +08:00 1
建议 google 地图 api,分词十分不靠谱
|
29
lichdkimba 2020-09-27 11:26:22 +08:00 1
地球上至少 80%的人不会打中文地址吧。。。。。
|
30
loliordie 2020-09-27 16:30:39 +08:00 1
这个题, 使用传统方法解决最大的问题其实来源于数据质量.
|
31
teddy2725 2020-09-27 17:26:34 +08:00 1
搞点高质量数据用 fasttext 训练一个文本分类模型来做
|