首页 > 商品匹配算法

商品匹配算法

对于一种商品:http://product.dangdang.com/23477630.html
用什么算法能知道他和另一家网站的http://www.amazon.cn/gp/product/B00KFM43CO/ref=s9_wish_gw_d66_g14_i1_gs9w?ie=UTF8&colid=39NFRLNN4TZIE&coliid=I8RBEPEFXAQE3&pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=center-2&pf_rd_r=123EVCKD7936886JAY79&pf_rd_t=101&pf_rd_p=212028152&pf_rd_i=899254051
是同一种商品呢?


虽然没做过 但是以我很水的想法 大概是这样的
首先,我们保证几个前提:
(1)没人会在乎那种特别商品的比价,比如你不会在意在5173上买张点卡是比淘宝上便宜还是贵,换句话说越是热门商品,比如服装、电器越惹人关注
(2)电商网站,热门的就那么几个,这使得我们可以针对每个网站做特殊的抓取和处理
(3)考虑到seo,一个商品在一段时间内会被静态化为一个页面,这样只要拿到url就不需要分析他是什么商品(云的功劳~服务器存所有数据)
(4)你的工程师能力足够写出爬虫抓取所有的数据并分析出关键字段,这个就不讲了

说这么多废话,你认为真的可以通过比较页面来筛选同样的商品么,当然不能,但是有一些特征可以用:

(1)标题,最重要的,里面有商品名称和型号,当然你得写出一些算法来去掉宣传的语句,比如惊爆价,之类
(2)对于图书其实更简单,去找ISBN就是了,境内合法出版的图书只要比这个就行了

接下来就是对标题的一些处理,通过分词、命名实体识别,拿到商品型号之类,最后和页面URL关联起来就完了,当然,如果你认为标题的内容足够纯净,直接比编辑距离也未尝不可。

以上纯脑补,各位大哥大姐手下留情。


正好接触过这方面的东西. 这个问题属于Record linkage范畴. 可以参考一下Stanford Entity Resolution Framework. 这里有个文档比较好, 可以看看.

【热门文章】
【热门文章】