首页 > 有一堆品牌(大概20万),如何进行归并,并匹配发源地国家

有一堆品牌(大概20万),如何进行归并,并匹配发源地国家

现有一堆品牌,中英混合,?️重复,大概20万条。

  1. 怎样进行归并好一些呢?相同的品牌,如耐克和nike?

  2. 怎样准确匹配发源地国家,比如,耐克匹配美国。

算法时间无所谓,但是,准确性要求高。


这个问题需要对概念之间的相似度建模,不大容易解决。

理想的情况是有一个外部数据库,存储着品牌和国家之间的对应关系,以及品牌的中英文名称对照。

如果什么资源都没有,可以借助搜索引擎返回的结果,相同的品牌的搜索结果是非常相似的,比如你在百度搜索nike 和 耐克,返回页面是很相似的。

品牌和国家的匹配也可以类似去做,比如抓百度百科页面里的总部地点信息等。

但这种办法的准确率不会特别高,处理也比较麻烦。

【热门文章】
【热门文章】