nodejs写爬虫做微博搜索有比较好的资源推荐吗?
http://www.cnblogs.com/hustskyking/p/spider-with-node.html
- 组织请求 request 首先你得模拟HTTP请求,偶尔还需要cookie容器来登录
- 页面分析 cheerio 用熟悉的jQuery的美刀API来抓页面内容,无需gyp编译
- 异步处理 bluebird 很多时候爬虫并不是一个请求就能拿到所有想要的数据,串行,并行,一个请求出发多个等等各种情况决定了一个异步库是必备的 promise风格的bluebird是更泛用的选择,单就爬虫的场景来说,async也不坏
- 组织数据 lodash 如果数据复杂的话,lodash可以帮你理清整理数据结构的代码,但这不是必备,如果只是简单的数组操作,那原生的
map
forEach
等也足够好了
四大金刚,居家旅行,偷鸡摸狗必备佳品,直接npm install,文档都在一页之内