首页 > 网络爬虫终止条件怎么判别
根据一个url,比如 sina.com进行爬去,怎么判断页面深度呢, 否则一直下去不是死循环了吗?
spider程序一般会有一个“集合”来管理将要爬取的url。只要这个集合不无限增长就会停止。
每次加入“集合”的时候,去重即可。