首页 > BloomFilter 在爬虫里该如何用?

BloomFilter 在爬虫里该如何用?

最近在练习爬虫,有人推荐用 BloomFilter 算法来判断url是否已经抓过,看了一些资料,还是不太明白该怎么写出来,求大牛指导。


http://blog.csdn.net/lemon_tree12138/article/details/47973715


bloom 简单的说就是 K 个hash函数,对于一个key可以算出k个hask(key),然后将数组arr(hask(key)) = 1。判断一个key是否已经抓过,就按照上面的流程再算一遍,所有的hask(key)都是1就是已经爬过的。


推荐你用bloom filter的人,估计也就随口说,你搞不定这个,你用KV把所有爬过的Url存下来也行啊。。。

【热门文章】
【热门文章】