python requests库模拟登陆学校教务网遇到数据库繁忙

第一次写爬虫也是第一次在SF提问题=。=
思路就是get登陆下网址获得一个cookie然后带着cookie以post方式登陆
headers伪造和浏览器一模一样
服务器总是返回一个数据库繁忙的界面，找了很久也不知道原因在哪


s = requests.Session()
x = s.get(loginUrl)
r = s.post(postUrl,data=
{
'zjh':'********',
'mm':'********',
'v_yzm':CodeRecognition()
}
,headers = headers)


print(x.headers)
print(x.request.headers)
print(r.headers)
print(r.request.headers)


f=file("cookie.txt","w+")
f.write(r.text)
f.close()

CodeRecognition() 这个验证码识别模块源码太长就不贴出来了，就是先用urllib库访问验证码地址 http://222.195.242.222:8080/validateCodeAction.do 把图片下载到本地，然后对图像二值化灰度等处理后调用Tesseract-OCR识别并返回

补充内容：在chrome中用EditThisCookie管理工具删掉网站的cookie然后刷新页面，登录会失败，返回数据库繁忙。但是我用session先访问网站返回给了我一个setcookie，然后带着这个cookie post表单为什么还是会有这个错误呢？

这是在sublime3中运行打印出的内容：

{'Transfer-Encoding': 'chunked', 'Set-Cookie': 'JSESSIONID=bhazvcnoUA-YYbw_WQZsv; path=/', 'Keep-Alive': 'timeout=8, max=500', 'Server': 'Apache', 'Connection': 'Keep-Alive', 'Cache-Control': 'private', 'Date': 'Sun, 15 May 2016 09:06:53 GMT', 'Content-Type': 'text/html; charset=GBK'}

{'Connection': 'keep-alive', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'User-Agent': 'python-requests/2.9.1'}

{'Transfer-Encoding': 'chunked', 'Keep-Alive': 'timeout=8, max=499', 'Server': 'Apache', 'Connection': 'Keep-Alive', 'Date': 'Sun, 15 May 2016 09:06:53 GMT', 'Content-Type': 'text/html; charset=GBK'}

{'Origin': 'http://222.195.242.222:8080', 'Content-Length': '77', 'Accept-Encoding': 'gzip, deflate', 'Connection': 'keep-alive', 'Accept': '*/*', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36', 'Host': '222.195.242.222:8080', 'Referer': 'http://222.195.242.222:8080/', 'Cookie': 'JSESSIONID=bhazvcnoUA-YYbw_WQZsv', 'Content-Type': 'application/x-www-form-urlencoded'}

没做马赛克处理.

import requests

cookies = {}

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/50.0.2661.86 Safari/537.36'
}


def get_code():
    url = 'http://222.195.242.222:8080/validateCodeAction.do'
    resp = requests.get(url, headers=headers)
    cookies['JSESSIONID'] = resp.cookies.get('JSESSIONID')
    with open('code.jpg', 'wb') as img:
        img.write(resp.content)


def login(username, password, code):
    url = 'http://222.195.242.222:8080/loginAction.do'
    form = {
        'zjh1': '',
        'tips': '',
        'lx': '',
        'evalue': '',
        'eflag': '',
        'fs': '',
        'dzslh': '',
        'zjh': username,
        'mm': password,
        'v_yzm': code
    }
    resp = requests.post(url, headers=headers, data=form, cookies=cookies)


def get_info():
    url = 'http://222.195.242.222:8080/xjInfoAction.do?oper=xjxx'
    resp = requests.get(url, headers=headers, cookies=cookies)
    print(resp.text)


if __name__ == '__main__':
    username = input(input your username: );
    password = input(input your password: );
    get_code()
    code = input('input the code: ')
    login(username, password, code)
    get_info()

上面的代码可以拿到数据
基本思路就是
GET获取验证码时服务器会返回一个cookie
带着这个cookie再POST表单就行了
最近刚好在写学校几个网站的爬虫，遇到且解决了不少问题
这个比我们学校那个好搞……

贵校的教务系统真是...
楼主，做爬虫是要有耐心的，今天我正好没事做所以帮你看了看，以下是我能够成功请求的代码。对于一个调用总是失败的接口，首先应该想到自己的那几个关键数据是否正确，如果确实正确但还是返回奇怪的错误，那就得考虑其他的字段，在浏览器里调试可以看到，POST的请求data里面还有其他几个空字段，当然，这里可能确实对后台的判断来说没有意义，但不代表所有的都没有意义，所以出现错误的时候就得加上去尝试，当然，当data里面字段正确以后还是错误就得考虑HTTP头中的信息了，主要的是Origin和Referer和User-Agent，如果还是不行，那就很有可能是Cookie字段的信息没有加上了，如下，一次一次地增加字段最终发现是cookie的问题

r = requests.post('http://222.195.242.222:8080/loginAction.do', data={'zjh': '201406478', 'mm': '201406478', 'v_yzm': 'v2tt', 'tips': '', 'zjh1': '', 'lx': '', 'evalue': '', 'eflag': '', 'fs': '', 'dzslh': ''}, headers={'Origin': 'http://222.195.242.222:8080', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36', 'Referer': 'http://222.195.242.222:8080/', 'Accept-Encoding': 'Accept-Encoding: gzip, deflate', 'Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4,zh-TW;q=0.2', 'Upgrade-Insecure-Requests': '1', 'Content-Type': 'application/x-www-form-urlencoded', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Cache-Control': 'max-age=0', 'Connection': 'keep-alive'}, cookies={'JSESSIONID': 'daeIK_SalL_r8cpMsrYsv'})

此时不再返回数据库繁忙了，而是验证码出错后重定向的页面了。

最后，做爬虫真的需要耐心，特别是设置有反爬虫策略的站点

哈哈，有人用这账号登上去了吗

温馨提示，你的账号密码已经暴露了。

【热门文章】