关于微博的爬虫问题！！？

不知道各位爬虫过微博的页面么？
今天我试了试，获取到的html内容居然不是我想要的！！
全是js内容，
我猜测微博是实用js文件加载内容的。

那么问题来了，
我要怎么获取js加载后的页面内容呢？就是body里面的标签内容。

我使用的是nodejs，superangert、cheerio、express。
望大神赐教，小弟感恩不尽。

微博都是动态加载的，难度比较大

可以试试WAP版本的 http://weibo.cn/

1）用正常的URL请求取访问，获取返回的内容存在本地发文件后，check下和最终的HTML文件内容有那些区别
2）你用下chrome的开发工具或firebug等工具查看页面的网络请求，查找其中的有关的http请求，特别是那些JSONP的请求
3）有些内容是要LAZY加载的，还需要你进一步观察~~~~
4）如果你对实时性要求不高的，可以考虑用phantomJS或electron等框架，让HTML渲染引擎完全渲染后，在抓取内容

总之，现在页面越来越难抓了~~~，
另外爬虫，要用到express么？superangert用来做代理？

试试神箭手云爬虫平台的新浪微博爬虫[按微博昵称爬取]支持云端自动采集，实时监控更新~
爬虫链接：http://www.shenjianshou.cn/in...

【热门文章】