我们想做电子商务垂直行业分析,想爬取淘宝的商品信息。淘宝的商品信息使用了很多ajax技术,尤其是评论部分;请问有什么好的方案么?
最长用的方法是搜索关键字,
通过关键字的信息返回商品ID,
在通过商品ID来搜索商品。
[http://open.taobao.com/doc/api_cat_detail.htm?spm=0.0.0.0.niihQi&cat_id=38&category_id=102]
淘宝提供了一套丰富的API的,不必写爬虫去翻。 http://open.taobao.com/doc/category_list.htm?id=102
查看商品评价的方法:取得了商品的 num_iid 后,调用 taobao.traderates.get 这个API
在没太多线路资源,抓取频率又不低的情况下,还要解决随时出现的验证码。
爬过,评论详情是ajax的,比较难获取,商品信息还是可以的。 这是我写的简单的爬虫(http://pfffinc.diandian.com/post/2013-01-14/40047366704)
有两种方案
- 抓取网页后,用webkit的内核渲染网页
- 人工构造Ajax的URL,获取Ajax内容后提取信息
目前我司用的是第二种方法,已经抓取了亿级别的淘宝商品
这里有个淘宝商品信息及评价采集爬虫(按商品搜索关键字)