首页 > 如何防止其它网站的恶意抓取

如何防止其它网站的恶意抓取

最近发现,随着网站流量的上升,也引来了一些恶意抓取的程序。我不反对蜘蛛的抓取,但是有些抓取程序写的太恶心了,简直就是变相的ddos,高并发长时间不间断的抓取,产生了大量的垃圾日志信息,而且会占用网站的正常带宽。不知道有没有针对这种抓取比较好的办法,对一个ip还好说,我可以自己iptable禁掉,是否有一种工具能够自动判断这种情况呢?别说要购买防火墙啊,希望有性价比高的方案。


防止恶意爬虫的方法很多,最常见的几样就是操作判断,若干次异常操作后跳转到一个验证码页面,或者是限制某个IP单位时间内访问的次数,nginx可以实现,内容保护的话,可以把主要内容用ajax获取。


建议的做法有以下几种:

  1. 单独建立蜘蛛服务器,主站遇到蜘蛛就引到具体的蜘蛛服务器上,让其上那去抓。那里全是生成好的静态页面,抓起来也快。
  2. 大图需要鉴权后才可访问,否则只能查看到小图。大图只能在本站访问,外站无法查看(这个已经比较成熟)
  3. 敏感内容,如价格之类的,建议学习京东,用单独的价格生成服务进行价格生成。

http://robbin.iteye.com/blog/451014

【热门文章】
【热门文章】