余弦相似度计算简易版

happy_tao_cool

浏览: 17737 次
性别:
来自: 广州

最近访客更多访客>>

sbb7060777

chen337

akfish

alchimie

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

算法
java

今天写了下余弦相似度计算的算法，之前在学校做项目的时候使用到了，一直没去整理。

所谓的字符串余弦相似度，就是把每个字符串比作一个向量，通过计算向量余弦值来判断字符串的相似程度，余弦值越接近1，说明两个字符串的相似度就越高，余弦值的计算公式为：(向量a*向量b)/(向量a的模*向量b的模)

实现如下：

package demo.similarity;

import java.util.HashMap;
import java.util.Map;

public class Utils {
	
	 public static double calculateSimilarity(String source, String dest){
		 
        //用map存放词在字符串中所出现的次数，key为词，value为整型数组
         Map<String, int[]> wordAppearTimes = new HashMap<String, int[]>();
         
         //这里是按照单个字来进行分割，假如在这里做一次分词，效果会更好点，但是复杂度也会高些
         //生成source字符串的向量
         int sourceLen = source.length();
         for(int i=0; i<sourceLen; ++i){
             if(wordAppearTimes.containsKey(source.charAt(i)+"")){
                 ++(wordAppearTimes.get(source.charAt(i)+"")[0]);
             }else{
            	 int[] appearTimes = new int[2];
            	 appearTimes[0] = 1;
            	 appearTimes[1] = 0;
            	 wordAppearTimes.put(source.charAt(i)+"", appearTimes);
             }
         }
         
         //生成dest字符串的向量
         int destLen = dest.length();
         for(int i=0; i<destLen; ++i){
             if(wordAppearTimes.containsKey(dest.charAt(i)+"")){
                 ++(wordAppearTimes.get(dest.charAt(i)+"")[1]);
             }else{
            	 int[] appearTimes = new int[2];
            	 appearTimes[0] = 0;
            	 appearTimes[1] = 1;
                 wordAppearTimes.put(dest.charAt(i)+"", appearTimes);
             }
         }
         
         //向量source的模
         double sourceModel = 0.00;
         //向量dest的模 
         double destModel = 0.00;
         //向量积 
         double crossProduct = 0.00;
         
         for(Map.Entry<String, int[]> entry : wordAppearTimes.entrySet()){
        	 sourceModel += entry.getValue()[0] * entry.getValue()[0];
        	 destModel += entry.getValue()[1] * entry.getValue()[1];
        	 crossProduct += entry.getValue()[0] * entry.getValue()[1];
         }
         
         sourceModel = Math.sqrt(sourceModel);
         destModel = Math.sqrt(destModel);
         
         double similarity = crossProduct / (sourceModel * destModel);
         return similarity;
     }
	 
	 public static void main(String[] args) {
		String s1 = "代码整洁之道";
		String s2 = "代码整洁之道";
		System.out.println(calculateSimilarity(s1,s2));
	}
}

输出为：

1.000000000000000

虽然这样能计算两个字符串的相似度，但是也存在一些缺陷：

1.按照上面的方法计算相似度，代码并没有按照词出现的顺序计算，比如我把上面的“代码整洁之道”改为“代码之道整洁”，结果还会是一样的

2.在实际应用中，按照单字来计算余弦相似度也是比较少的，除非系统对相似度计算得要求不高；对字符串加入分词，效果会更好一些

分享到：

Java虚拟机运行时数据区说明 | 计算两个日期之间的差

2013-10-29 10:38
浏览 1868
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

余弦相似度计算简易版

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

余弦相似度计算简易版

评论

发表评论

相关推荐

希尔排序

快速排序

选择排序

直接插入排序

Java虚拟机运行时数据区说明

计算两个日期之间的差

JTable支持点击Enter按键进行换列操作

使用小米手机作为Android开发的开发机（虚拟机）

启动webservice时候抛出异常：java.security.PrivilegedActionException

WebService Jax-ws 简单应用

"".equal(String)与Stirng.equal("")的区别

最近访客更多访客>>