MinHash可用于聚类,计算向量相似等,两个向量相似计算,通过minhash降维从而把计算量维持在一个常数级别,他是基于Jaccard Index 相似度的算法,也是一种LSH的降维的方法。
举例描述:
A={中国,互联网,博客,Java,管理}
B={互联网,Java,金融,数据库,事务,源码}
那么A和B的相似值为:
S(A,B)=|A∩B|/|A∪B|=2/9,当为1的时候为极其相似可以认为是相同,因此MinHash也用于文本去重。
我们发现直接基于向量进行距离计算需要做如下操作:
1.string 转化成int,同时设置值
2.计算距离
3.如果集合足够大,那么这个向量维度就很大
如果直接基于集合进行合集并集运算那么也依赖于集合的基
我们可以通过minhash来把维度降低到常数级别记做N,是一种LSH的降维的方法不一定精确。
原理:
假如,我们随机从两个集合中各挑选一个元素s(A)、s(B),刚好这两个无素相同的概率 其实等同于,在A∪B这个大的随机域里,选中的元素落在A∩B这个区域的概率,这个概率就是S(A,B)
minhash的算法流程如下:
1.找N个随机hash函数;
2.对集合的每个元素进行hash,每次hash之后取集合元素hash值的最小值,这样就得到N个数值;
3.集合A和集合B的N个数值进行比较是否相等,相等累计记做n
4.S(A,B)=n/N
相关推荐
实时大数据分析minhash算法 报告,源代码和数据集 采用Minhash技术两个文本数据集Amazon News和Google Report的Jaccard相似度,给出两个集合中每条记录在另一个集合中相似度最高的记录,作为匹配结果输出。
java实现的MinHash算法,用于大批量的文本检测重复度。
概述 该库提供了用于b位MinHash算法的工具。 问题/问题 请提出。 (日本论坛在。) 安装 玛文 将以下依赖项放入pom.xml中: < groupId>org.codelibs < artifactId>minhash < version>0.2.0 参考 计算MinHash ...
#资源达人分享计划#
最小哈希LSH MinHash 和 LSH 的 Java 实现,用于查找通过 Jaccard 相似度衡量的接近重复的文档。 MinHash 的实现,用于逼近文本文档中的 Jaccard 相似度。 还包括 LSH 的实现,这是一种快速查找近似最近邻的方法。
datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构,而且精度很少。这里软件包包含...
datasketch, MinHash,LSH,LSH林,加权 MinHash,HyperLogLog,HyperLogLog+ + datasketch: 大数据看起来很小 datasketch提供了可以以快速地处理和搜索大量数据 super的概率数据结构,而且精度很少。这里软件包包含...
MinHash,加权MinHash 提卡阈值 MinHash,加权MinHash Jaccard Top-K 最小哈希 遏制阈值 datasketch必须与Python 2.7或更高版本以及NumPy 1.11或更高版本一起使用。 Scipy是可选的,但有了它,LSH初始化可以更快...
minhash技术的Java实现,以查找集合之间的相似性。 根据上的代码进行的修改
实验内容:采用Shinling及Minhash技术分析以下两段文本的Jaccard相似度: (1) The TOEFL test is an English language assessment that is often required for admission by English-speaking universities and ...
SetSketch:填补MinHash和HyperLogLog之间的空白 该存储库包含源代码,可重现论文“ SetSketch:填补MinHash和HyperLogLog之间的空白”( )中提出的所有结果和图形。 抽象 MinHash和HyperLogLog是草绘算法,对于...
这是通过MinHash和Random Projection的MapReduce / Spark实现实现的,它们是局部敏感哈希(LSH)技术,分别标识具有高Jaccard相似度和低汉明距离的句子。 我们的实验结果似乎支持Weissman [1]聚类结果的结论,并...
资源来自pypi官网。 资源全名:minhash-0.1.1-py3-none-any.whl
MHAP, MinHash对齐过程( MHAP,发音映射) MHAPMinHash对齐进程( MHAP发音映射): 用于检测重叠和实用程序的局部敏感哈希。 这是开发分支,请使用最新标签。插件生成你必须有最新的JDK 和 Apache Maven 。 要签出和...
采用Shinling及Minhash技术分析以下两段文本的Jaccard相似度: (1) The TOEFL test is an English language assessment that is often required for admission by English-speaking universities and programs ...
但是 minhash 需要 mongo。 要将 n 个最新的 Watchers 数据集下载并加载到 mongo 中,请运行 $ ./download_data n 其中 n 是整数。 每个数据集大约是 2 个月的数据。 您还可以通过运行导出 userToRepos 数据 $ ....
#资源达人分享计划#
simhash cmu 课件,如何识别相似文档, 包括shingling, minhashing 和 locality sensitive hashing
将长读映射到大型参考数据库 这是FER( )上的生物信息学课程的一个项目。 描述实现算法的论文可以在 找到,其C ++实现。 随着作者对算法的改进,C ++实现似乎与本文的描述有所不同。 安装 该程序的依赖项全部捆绑...