首页 > 网站是如何区分我的访问是爬虫还是计算机呢?

网站是如何区分我的访问是爬虫还是计算机呢?

我用jsoup写了一个爬虫对网站进行爬取,过了一段时间,就被封了ip,变成了403,需要等好久才能解封。但是我用网页登录还是没问题的,也没要求输入验证码之类的。

我的jsoup中加入了这几项,是不是有漏掉的呢?

User-Agent,Request-Line,Accept-Encoding,Accept-Language,Cache-Control,Connection,Content-Type,Host,cookie

请问网站是如何区分我的访问是程序还是计算机呢??


一般网站都是通过User-Agent来确定搜索引擎爬虫,像题主这种就统一归类为恶意访问,一般来说,网站都不是一开始就做反爬虫的,都是通过分析access_log统计访问,根据IP、请求时间、频率、访问的路径来确认黑名单,发现了自己的网站被恶意访问,然后使用iptable来禁止,如果屡禁不止,就只能写一个中间件实时过滤,具体就是通过数据库记录每个ip访问频率,然后可能加上referer,访问时间间隔等等措施,具体怎么搞,每个网站都有自己的方法,很难说

【热门文章】
【热门文章】