本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词
本文使用的英语单词囊括了几乎所有的考纲词汇共18123词:
/** * 考纲词汇 * @return */ public static Set<Word> getSyllabusVocabulary(){ return get("/word_primary_school.txt", "/word_junior_school.txt", "/word_senior_school.txt", "/word_university.txt", "/word_new_conception.txt", "/word_ADULT.txt", "/word_CET4.txt", "/word_CET6.txt", "/word_TEM4.txt", "/word_TEM8.txt", "/word_CATTI.txt", "/word_GMAT.txt", "/word_GRE.txt", "/word_SAT.txt", "/word_BEC.txt", "/word_MBA.txt", "/word_IELTS.txt", "/word_TOEFL.txt", "/word_TOEIC.txt", "/word_考 研.txt"); }
启动程序后控制台输出:
---------------------------------------------------------- ---------------------------------------------------------- 可通过输入命令sa=edi来指定相似度算法,可用的算法有: 1、sa=edi,编辑距离 2、sa=ja,Jaro距离 3、sa=jaw,Jaro–Winkler距离 可通过输入命令sa=all来启用所有的相似度算法 可通过输入命令limit=45来指定显示结果条数 可通过输入命令exit退出程序 输入要查询的词或命令:
我们输入sa=all命令,回车确定,然后再次输入单词love后回车:
sa=all 启用所有的相似度算法 love
接着就会输出使用3种不同的相似度算法计算出来的love的相似词:
计算相似词:love 显示结果数目:45 ---------------------------------------------------------- ---------------------------------------------------------- love 的相似词(EditDistanceTextSimilarity): 1、1.0 love 2、0.8 lover 3、0.8 glove 4、0.75 rove 5、0.75 lave 6、0.75 dove 7、0.75 live 8、0.75 move 9、0.75 lobe 10、0.75 lode 11、0.75 lone 12、0.75 lope 13、0.75 lore 14、0.75 lose 15、0.666667 alcove 16、0.666667 sloven 17、0.666667 lovely 18、0.6 shove 19、0.6 loose 20、0.6 alive 21、0.6 levee 22、0.6 level 23、0.6 lever 24、0.6 loser 25、0.6 above 26、0.6 slave 27、0.6 alone 28、0.6 lower 29、0.6 solve 30、0.6 trove 31、0.6 rover 32、0.6 drove 33、0.6 movie 34、0.6 globe 35、0.6 leave 36、0.6 prove 37、0.6 hover 38、0.6 hovel 39、0.6 novel 40、0.6 slope 41、0.6 cover 42、0.6 coven 43、0.6 covey 44、0.6 covet 45、0.6 close 耗时:125毫秒 ---------------------------------------------------------- ---------------------------------------------------------- love 的相似词(JaroDistanceTextSimilarity): 1、1.0 owl 2、1.0 love 3、0.933333 lover 4、0.833333 rove 5、0.833333 lave 6、0.833333 dove 7、0.833333 live 8、0.833333 move 9、0.833333 lobe 10、0.833333 lode 11、0.833333 lone 12、0.833333 lope 13、0.833333 lore 14、0.833333 lose 15、0.8 lovely 16、0.783333 levee 17、0.783333 lever 18、0.783333 loser 19、0.783333 lower 20、0.783333 rover 21、0.783333 hover 22、0.783333 hovel 23、0.783333 novel 24、0.783333 cover 25、0.783333 coven 26、0.783333 covey 27、0.783333 covet 28、0.783333 liver 29、0.783333 Dover 30、0.75 covert 31、0.75 lively 32、0.75 lonely 33、0.75 govern 34、0.75 loving 35、0.72619 poverty 36、0.72619 novelty 37、0.72619 lovable 38、0.72619 covered 39、0.708333 coverage 40、0.708333 novelist 41、0.708333 leverage 42、0.708333 lovingly 43、0.708333 covenant 44、0.708333 governor 45、0.708333 November 耗时:200毫秒 ---------------------------------------------------------- ---------------------------------------------------------- love 的相似词(JaroWinklerDistanceTextSimilarity): 1、1.0 love 2、0.96 lover 3、0.933333 lovely 4、0.866667 lobe 5、0.866667 lode 6、0.866667 lone 7、0.866667 lope 8、0.866667 lore 9、0.866667 lose 10、0.85 live 11、0.833333 rove 12、0.833333 move 13、0.833333 November 14、0.826667 loser 15、0.826667 lower 16、0.825 loving 17、0.808333 lovable 18、0.805 levee 19、0.805 level 20、0.805 liver 21、0.795833 lovingly 22、0.783333 hover 23、0.783333 hovel 24、0.783333 novel 25、0.783333 cover 26、0.783333 coven 27、0.783333 covey 28、0.783333 covet 29、0.783333 Dover 30、0.75 covert 31、0.75 govern 32、0.746667 loneliness 33、0.7375 lavender 34、0.7375 leverage 35、0.733333 loan 36、0.733333 loaf 37、0.733333 loam 38、0.733333 lock 39、0.733333 logo 40、0.733333 loft 41、0.733333 long 42、0.733333 loll 43、0.733333 loon 44、0.733333 loom 45、0.733333 loop 耗时:167毫秒 ---------------------------------------------------------- ----------------------------------------------------------
相关推荐
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
基于分词的中文文本相似度计算研究
word分词文本相似度计算.docx
算法 文本相似度算法,首先对文本分词,然后计算词频,生成词频向量,使用余弦相似度算法进行计算
text-similarity-php, 通过余弦定理 分词计算文本相似度PHP版
该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动...
IKAnalyzer中文分词,计算句子相似度
使用JAVA编写的,分词、TFIDF相似度计算,K临近法聚类
word分词算法(demo)word分词算法(demo)word分词算法(demo)
【基于Python+Django的毕业设计】文本相似度计算系统(源码+录像演示+说明).zip 【项目技术】 python+Django+mysql ...3.提供文本相似度计算结果的可视化功能,可以直观地展示两个文本之间的相似度。
JAVA查重算法,包括HanLP 相似度比较、二叉树、DFA算法实现、敏感词处理工具、IKAnalyzer中文分词工具、分词进行敏感词过滤等查重算法,可以计算海明距离、余弦相似性、莱文斯坦距离、Jaccard 相似度、Sorensen Dice...
数据挖掘与算法视频(系统架构,NLP-文本相似度,数据挖掘-中文分词,隐马+推荐算法,分类算法,聚类算法)等
源码亲测可用,可做计算机毕业设计、课程设计等参考。 【项目技术】 python+Django+mysql 【实现功能】 本系统的主要功能是计算两个...3.提供文本相似度计算结果的可视化功能,可以直观地展示两个文本之间的相似度。
本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考,具体如下: 学习目标: 1.利用gensim包分析文档相似度 2.使用jieba进行中文分词 3.了解TF-IDF模型 环境: Python 3.6.0 |Anaconda 4.3.1 ...
使用java调用HanLP分词器实现两个文本相似度对比,可以很快对比出百分率(1=100%)
1.采用经典的vsm模型实现的文本相似度计算。 2.采用中科院ictclas的开源分词系统 3.包含全部实现源码
词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语...
基于Python的文本相似度计算系统 python;django;mysql; 本文介绍了一个基于Python的文本相似度计算系统,该技术通过各种方法...(3)提供文本相似度计算结果的可视化功能,可以直观地展示两个文本之间的相似度。
(基于python的毕业设计)文本相似度计算系统(源码+说明+演示视频),本科毕业设计高分项目。 【项目技术】 python+Django+mysql ...3.提供文本相似度计算结果的可视化功能,可以直观地展示两个文本之间的相似度。