中文句子相似度判断源码探讨

115893520

浏览: 140557 次
性别:
来自: 成都

最近访客更多访客>>

joe521123270

xinannansha

870081616

通往哲学之路

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

javaWeb

J#SQL

在我们日常的开发中，有时候不可避免的需要判断两个中文句子的相似度，如多语翻译项目的句子库录入需要判断当前输入的句子是否在库中已有相似的句子，在Tag相关性的时候需要给出相关文章等等，应用场景非常之多，不知道大家有没有好的方式来判断，我这里给出我的SQL实现和Java实现，供大家参考：

PL/SQL判断句子相似度：

Sql代码

CREATE OR REPLACE FUNCTION ld -- Levenshtein distance
(p_source_string IN VARCHAR2,
p_target_string IN VARCHAR2)
RETURN NUMBER
DETERMINISTIC
AS
v_length_of_source NUMBER := NVL (LENGTH (p_source_string), 0);
v_length_of_target NUMBER := NVL (LENGTH (p_target_string), 0);
TYPE mytabtype IS TABLE OF NUMBER INDEX BY BINARY_INTEGER;
column_to_left mytabtype;
current_column mytabtype;
v_cost NUMBER := 0;
BEGIN
IF v_length_of_source = 0 THEN
RETURN v_length_of_target;
ELSIF v_length_of_target = 0 THEN
RETURN v_length_of_source;
ELSE
FOR j IN 0 .. v_length_of_target LOOP
column_to_left(j) := j;
END LOOP;
FOR i IN 1.. v_length_of_source LOOP
current_column(0) := i;
FOR j IN 1 .. v_length_of_target LOOP
IF SUBSTR (p_source_string, i, 1) =
SUBSTR (p_target_string, j, 1)
THEN v_cost := 0;
ELSE v_cost := 1;
END IF;
current_column(j) := LEAST (current_column(j-1) + 1,
column_to_left(j) + 1,
column_to_left(j-1) + v_cost);
END LOOP;
FOR j IN 0 .. v_length_of_target LOOP
column_to_left(j) := current_column(j);
END LOOP;
END LOOP;
END IF;
RETURN current_column(v_length_of_target);
END ld;

CREATE OR REPLACE FUNCTION ld -- Levenshtein distance
  (p_source_string   IN VARCHAR2,
   p_target_string   IN VARCHAR2)
  RETURN                NUMBER
  DETERMINISTIC
AS
  v_length_of_source    NUMBER := NVL (LENGTH (p_source_string), 0);
  v_length_of_target    NUMBER := NVL (LENGTH (p_target_string), 0);
  TYPE mytabtype IS     TABLE OF NUMBER INDEX BY BINARY_INTEGER;
  column_to_left        mytabtype;
  current_column        mytabtype;
  v_cost                NUMBER := 0;
BEGIN
  IF v_length_of_source = 0 THEN
    RETURN v_length_of_target;
  ELSIF v_length_of_target = 0 THEN
    RETURN v_length_of_source;
  ELSE
    FOR j IN 0 .. v_length_of_target LOOP
      column_to_left(j) := j;
    END LOOP;
    FOR i IN 1.. v_length_of_source LOOP
      current_column(0) := i;
      FOR j IN 1 .. v_length_of_target LOOP
        IF SUBSTR (p_source_string, i, 1) =
           SUBSTR (p_target_string, j, 1)
        THEN v_cost := 0;
        ELSE v_cost := 1;
        END IF;
        current_column(j) := LEAST (current_column(j-1) + 1,
                                    column_to_left(j) + 1,
                                    column_to_left(j-1) + v_cost);
      END LOOP;
      FOR j IN 0 .. v_length_of_target  LOOP
        column_to_left(j) := current_column(j);
      END LOOP;
    END LOOP;
  END IF;
  RETURN current_column(v_length_of_target);
END ld;

JAVA判断句子相似度代码：

Java代码

/*
* 相似度公式：Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0)
* 设q是字符串1和字符串2中都存在的单词的总数，s是字符串1中存在，字符串2中不存在的单词总数，
* r是字符串2中存在，字符串1中不存在的单词总数，t是字符串1和字符串2中都不存在的单词总数。
*/
public static double getSimilar(String ora,String dest){
double ff=0.0;
Sentence oraSen = SplitWord.splitWord(ora);
Sentence desSen = SplitWord.splitWord(dest);
if(oraSen!=null&&desSen!=null){
HashSet<String> oraS=oraSen.toWord();
HashSet<String> desS=desSen.toWord();
if(oraS!=null && desS!=null){
int q=0,s=0,r=0;
Iterator<String> ite=oraS.iterator();
while(ite.hasNext()){
Object o=ite.next();
if(desS.contains(o)) ++q;
}
s=oraS.size()-q;
r=desS.size()-s;
return 2.00*q/ (2*q+1*r+1*s);
}
return 1;
}
return ff;
}

    /*
     * 相似度公式：Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 
     * 设q是字符串1和字符串2中都存在的单词的总数，s是字符串1中存在，字符串2中不存在的单词总数，
     * r是字符串2中存在，字符串1中不存在的单词总数，t是字符串1和字符串2中都不存在的单词总数。
     */
    public static double getSimilar(String ora,String dest){
    	double ff=0.0;
    	Sentence oraSen = SplitWord.splitWord(ora);
    	Sentence desSen = SplitWord.splitWord(dest);
    	if(oraSen!=null&&desSen!=null){
    		HashSet<String> oraS=oraSen.toWord();
    		HashSet<String> desS=desSen.toWord();
    		if(oraS!=null && desS!=null){
    			int q=0,s=0,r=0;
    			Iterator<String> ite=oraS.iterator();
    			while(ite.hasNext()){
    				Object o=ite.next();
    				if(desS.contains(o)) ++q;
    			}
    			s=oraS.size()-q;
    			r=desS.size()-s;
    			return 2.00*q/ (2*q+1*r+1*s);
    		}
    		return 1;
    	}
    	return ff;
    }

大家不知道在处理中文句子相似度的时候有没有更好的方法呢？

分享到：

关于JSP重复提交的问题 | 通用各类文档读写的设计与实现

2009-11-04 15:59
浏览 2927
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

中文句子相似度判断源码探讨

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

中文句子相似度判断源码探讨

评论

发表评论

相关推荐

java web 文件文件上传

通用各类文档读写的设计与实现

抓取百度Top500歌曲以及地址源码

Apache 2.2.x+Tomcat6集群配置备忘

多文件上传组件SWFUpload java环境小例子

工具类

好用的dao(spring+jpa)

spring+JPA的注解（自己使用）

spring的优缺点

Struts优缺点

struts1与struts2的比较

struts2+hibernate+spring分页方法

struts2+spring2+hibernate3.1应用实例

最近访客更多访客>>