首页 > 爬取新浪微博需要登陆问题

爬取新浪微博需要登陆问题

比如我已经在浏览器上登陆过了,但是爬取网页的时候还需要再登陆一次.

求问:
1.这和cookies有关么?
2.如果有关的话,那么这边明明已经登陆了为什么不可以公用呢?
3.如果和cookies无关,到底为什么呢....
ps:只是为了做一些学校项目的分析需要用到一些微博文本


你就带上cookie呗。给你代码里的http客户端类设置Cookie协议头,又不费事。


爬虫的请求和浏览器的请求不是同一个请求,当然要重新登陆了。


浏览器是浏览器,程序是程序。
爬虫是要模拟浏览器行为的。
张三吃了一块月饼,并不代表李四也吃了一块月饼。
建议你先去了解一下cookie,欲速则不达,从你的问题里就知道,功课没有做足。

推荐一篇相关文章:模拟登陆微博


模拟登录,程序实现很容易。


做下模拟登陆


https://github.com/chineking/cola


我试过cookie模拟登陆微博,是可行的哦。你可以先用Chrome登录微博,然后F12查看保存在浏览器中的cookie值和User-Agent信息。模拟登陆就好了。


你的爬虫又不是在浏览器里跑的,当然要登陆。是使用已登陆用户的cookie,不过微博没试过,知乎和百度都是能登陆扒取的,ps:我用的nodejs。

【热门文章】
【热门文章】