1
6167 2020-12-17 14:35:00 +08:00
具体情况具体分析,这个不完全一样具体有多不一样得有个例子才好判断
|
2
TimePPT 2020-12-17 14:40:53 +08:00
你这需求能实现的太多了,得看不一样到啥程度
A 表是「张三」 B 表有个「*张叁」一个「张三丰」 这怎么对应? |
3
kevinfk2 OP @6167 比如 a 里面是 XX 市 XX 科技有限公司,B 里面可能是 XXxx 科技有限公司。
所以我的意思是用关键词,就是公司的名字那段去查。 |
4
6167 2020-12-17 15:38:02 +08:00
先把 AB 表筛一遍,把 XXxx 有限公司中的“X 地名”“有限”“公司”等无效字符去掉,剩下的字符串就是你需要的“公司名”,把关键字存为新的一列,再比对。用 '你好' in '你好吗'这种比差不多吧
|
5
xiaolinjia 2020-12-17 15:57:38 +08:00
https://github.com/seatgeek/fuzzywuzzy
或许你可以试试这个库。 |
6
qiuhang 2020-12-17 15:58:20 +08:00
pandas
|
7
kevinfk2 OP |
8
ZAXON 2020-12-17 16:07:50 +08:00
单从你举的例子来看,应该是计算字符串相似度吧。四楼说的去除地区名,正好我前几天用到了,可以去 github 上面找找,有整理好的行政区清单。
|
9
shyrock 2020-12-18 14:47:20 +08:00
直接计算相似度的方法效果不好,可以先分词,再用 TF-IDF 模型来计算相似度。
|