首页 > 分析网站AccessLog如何过滤蜘蛛

分析网站AccessLog如何过滤蜘蛛

分析网站的access_log总是有很多噪音日志,有搜索引擎的蜘蛛,也有订阅源什么的,非常麻烦
我现在的做法是用UA的一些关键字做过滤,维护一个过滤列表,每分析一条就去过滤一次。
我想问问,还有没有其他更好的方案,因为过滤UA的方法,当列表很大的时候,效率非常差,而且这个列表也不一定全,需要定时去观察数据,更新列表。


来来来,我给你看看这个简单粗暴的命令:

#!/usr/bin/env bash
watch "tail -5000 /srv/log/nginx/xxx.log|awk '{print \$1}'|sort|uniq -c | sort -rn|head -50"

access log记录时就过滤掉已知bot的访问记录写入单独log文件

【热门文章】
【热门文章】