首页 > 分析某网站的查询流程并模拟请求遇到瓶颈

分析某网站的查询流程并模拟请求遇到瓶颈

描述前声明:这个问题的解决可能需要实操,建议有爬虫或反爬虫经验,最好熟练使用chrome或Firefox相关工具(比如postman)的童鞋帮忙分析看一下,或者有相关经验的给出一些理论指导也行~另,对于解决问题的回答,我会给你打赏(2位数),还请不要拒绝。

我想要分析一个航空公司订票流程的网络请求,以便于能够写一个接口自动化查询相关数据。一个关键请求始终没法模拟出来,想知道盲点在哪里。
直接先贴网站:http://www.vietjetair.com/Sites/Web/zh-CN/Home
我分析该网站订票流程如下:
1,在首页选择出发点,目的地,出发日期之后,点击搜索,浏览器发出第1个请求(post,参数是出发地、目的地、出发日期加上viewstate等乱七八糟的),该请求返回一个html。
2,上面的html里面有个form,网页加载完毕自动提交,form的内容就是很规范的出发地、目的地、出发日期等信息,form自动提交便是第2个请求(post),按道理讲,这个请求就可以返回结果信息了,但是它偏偏没有,它也会返回一个html,里面有个form。如果是第一次查询还会设定一个特定cookie。
3,这个form里面的参数就比较看不懂了,这个form也会自动提交发出第3个请求(post),这个请求返回的是一个302 重定向,定向到一个固定的url,然后拿着那个特定cookie去get这个url,就能获取查询结果。

我遇到问题是,我用postman 模拟了第2个请求,能拿到cookie和form内容,但是在模拟第3个请求时,返回的也是302,但url就不是正确的URL了,总是首页。即便我在用浏览器刚刚获得第3个请求的正确结果,再用postman拿着一模一样的参数去模拟,还是不会返回正确结果。


根据我做站长工具和做违章查询时的反爬虫经验,你最好把你Curl过程中的cookie写道文件里,每次请求都用一个临时文件来存放cookie,这样3次请求都会带着cookie,对方很难发现你是浏览器还是机器人,另外记得抓包,有些JS会在HttpHeader里加糖,不注意发现不了,比如万网的whios 查询,明明没有验证码,偏偏取不到


还是出钱请人开发吧,要么就自己再研究研究。

【热门文章】
【热门文章】