问题:
假设同一类商品,在 A 网站叫 XXX-abc-123,在 B 网站叫 XXX-123-abcd,叫法上有微小差别,从 A 和 B 抓取到的数据汇总到一起,怎么把对应一致的商品匹配起来呢?
举例:
- 比如同一款笔记本电脑,在 A 网站叫'Apple MacBook Pro 13.3 英寸笔记本电脑 银色 配备 Touch Bar 2018 新款(四核八代 i5 8G 256G 固态硬盘)',在 B 网站叫'Apple/苹果 13 英寸 2018 MacBook Pro 触控栏和触控 ID 2.3GHz 处理器 256GB 存储容量'
- 或者同一款冰箱,在 A 网站叫'海尔( Haier ) 452 升风冷无霜对开门冰箱 90 度开门 66.5cm 纤薄机身 低温净味 双温双控 BCD-452WDPF',在 B 网站叫'海尔 风冷无霜-对开门冰箱 452 升 BCD-452'
- 或者同一款车,在 A 网站叫'大众 宝来 2019 款 1.5L 自动舒适型',在 B 网站叫'一汽大众 宝来 1.5L AT 舒适型 2019 款'
像这种不同来源,同一种商品,但是名字中的组成、顺序、包含关系、个别细节有所不同的情况,一般是使用什么算法把对应关系进行匹配的?求指点。