jsoup,httpclient_网站是如何区分我的访问是爬虫还是计算机呢？，jsoup,httpclient,网页爬虫,数据挖掘

网站是如何区分我的访问是爬虫还是计算机呢？

我用jsoup写了一个爬虫对网站进行爬取，过了一段时间，就被封了ip，变成了403，需要等好久才能解封。但是我用网页登录还是没问题的，也没要求输入验证码之类的。

我的jsoup中加入了这几项，是不是有漏掉的呢？

User-Agent，Request-Line，Accept-Encoding，Accept-Language，Cache-Control，Connection，Content-Type，Host，cookie

请问网站是如何区分我的访问是程序还是计算机呢？？

一般网站都是通过User-Agent来确定搜索引擎爬虫，像题主这种就统一归类为恶意访问，一般来说，网站都不是一开始就做反爬虫的，都是通过分析access_log统计访问，根据IP、请求时间、频率、访问的路径来确认黑名单，发现了自己的网站被恶意访问，然后使用iptable来禁止，如果屡禁不止，就只能写一个中间件实时过滤，具体就是通过数据库记录每个ip访问频率，然后可能加上referer，访问时间间隔等等措施，具体怎么搞，每个网站都有自己的方法，很难说