首页 > 关于局部敏感哈希原理的疑惑

关于局部敏感哈希原理的疑惑

看到的解释是说

局部敏感哈希(LSH)是指这样的哈希方法:对两篇文档,如果它们相似,则它们的哈希值有较高的概率是相同的。有了文档的最小哈希签名,我们就能实现这种哈希方法。直观的做法是,将包含 b×r 个值最小哈希签名分为 b 等份,每份 r 个,对两个文档,定义 P 为两个文档至少含有1个相同份的概率,显然,文档间的 Jaccard 相似度越高,哈希签名具有相同值的位数就越多,概率 P 就越大。

还是不太明白,求算法大神能讲得直白一些,最好举例说一下。


我觉得好像就是哈希表里面的冲突。冲突的越多,那么相同的“子块”就越多,因此整体的相似度就越高。

【热门文章】
【热门文章】