提取关键词，并排序 - ttitfly的笔记 - ITeye博客

`

ttitfly

浏览: 615937 次
性别:
来自: 杭州

最近访客更多访客>>

xubbsun

xuwenyan

u011158808

zws

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xianzi_2008： xianzi_2008 写道楼主请教下，我缓存了一个List& ...
Ehcache
xianzi_2008：楼主请教下，我缓存了一个List<Bean>对象， ...
Ehcache
jsdsh：收藏好.五个字
hibernate之one-to-many详细
Tlife：好！！！！
hibernate------HQL总结
yanqingluo：例子很恰当。
观察者模式

提取关键词，并排序

博客分类：

搜索技术

阅读更多

java 代码

//提取内容关键字！对关键字重要性做排序筛选！
TermFreqVector contentFreqVector = reader.getTermFreqVector(docId, "itemContent");
if(contentFreqVector != null){
//生成TermVector ArryList!
List<termvector> contentVectorList = new ArrayList<termvector>(); </termvector></termvector>
for (int i = 0; i < contentFreqVector.size(); i++) {
String termWord=contentFreqVector.getTerms()[i];
String regex="[a-zA-Z]{4,}|[\u4E00-\u9fa5]{2,5}"; //英文4个以上，中文2到5个
boolean is = termWord.matches(regex);
if(is==true){
Term term = new Term("itemContent",contentFreqVector.getTerms()[i]);
TermVector termVector = new TermVector();
termVector.termWord = termWord;
termVector.termFreq = contentFreqVector.getTermFrequencies()[i];
// termVector.docFreq = searcher.docFreq(term);
//一般来说IDF值越大，权重越高，该词在全网出现的频率越小
termVector.IDF = searcher.getSimilarity().idf(term, searcher);
Similarity sim = Similarity.getDefault();
termVector.TF = sim.tf(contentFreqVector.getTermFrequencies()[i]);
contentVectorList.add(termVector);
}
}
//按照制定的算法进行排序！算法还需要完善需要考虑 TF/IDF 信息熵方面的东西！
Comparator<termvector> comp = new TermComparator(); </termvector>
Collections.sort(contentVectorList,comp);
class TermComparator implements Comparator {
public int compare(Object o1, Object o2) {
TermVector t1 = (TermVector) o1;
TermVector t2 = (TermVector) o2;
if (t1.getWeight() < t2.getWeight())
return 1;
else
return 0;
}
}
//Document itemDoc = reader.document(docId);

分享到：

数据挖掘关于分类方面 | lucene索引参数优化

2007-06-29 11:10
浏览 2471
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

C#提取内容最多的关键词排序，华人CMS首发: txt文本，提取内容最多的关键词排序，类似新浪博客提取关键词。

文章关键词提取工具: 提取文章中的关键词，按词频提取，排序顺序是按词频高低。

C# 提取文章关键词: 代码实现从文章内容拆分，对词语进行排序，从而提取出现最多次数的词

一个文章关键词提取工具: 本程序是一款完全免费且快速的文章关键词提取工具，采用关键词高速匹配算法提取文章中的字、词、句子或短语并取得数量和按数量排序。

自然语言处理关键词提取: 基于词图模型的关键词提取算法主要有 PageRank 和 TextRank。 PageRank 是 TextRank 算法的思想基础，TextRank 是 PageRank 在文本上的应用。来源：Google 创始人拉里·佩奇和谢尔盖·布林于 1997 年构建早期的搜索...

论文研究-一种用于本体排序的内容分析方法.pdf: 针对使用传统的用于本体排序的方法得到的排序结果不够准确的问题，提出了一种...最后结合主题相似度和上下文相关度得到本体相对于关键词的综合评价值并进行排序。实验结果表明，该方法可以有效地提高本体排序的准确性。

测试中文分词.rar: 根据内容提取关键词，根据关键词出现次数排序，取出前5个关键词，使用zh-hans语言包提取中文关键词

python提取包含关键字的整行数据方法: 如下图所示，有一个近2000行的数据表，需要把其中含有关键字‘颈廓清术,中央组(VI组)’的数据所在行都都给抽取出来，且提取后的表格不能改变原先的顺序。问题分析：一开始想用excel的筛选功能，但是发现只提供...

基于Python的中文本关键词抽取源码(分别使用TF-IDF、TextRank、Word2Vec词聚类三种方法).zip: 该方法根据统计信息，如词频，来计算得到文档中词语的权重，按权重值排序提取关键词。TF-IDF和TextRank均属于此类方法，其中TF-IDF方法通过计算单文本词频（Term Frequency， TF）和逆文本频率指数（Inverse ...

python textrank算法源码实例演示: Python TextRank算法是一种用于文本摘要和关键词提取的算法。它基于PageRank算法，能够自动提取文本中最重要的句子和单词，从而生成简明扼要的摘要和关键词。 TextRank算法主要包含以下几个步骤：预处理、构建图、...

基于JavaWeb数据分析的关键词分析系统源码+项目使用说明.zip: 4) TextRank4Keyword 自然语言处理关键词提取 5) ThreadPool 线程池 6) jsonp 爬虫 7) Mail IMAP协议 8）pdfbox PDF2String 9）poi 生成excel ii. 实现功能 1) Java爬虫拉取雪球网40...

基于TextRank+Seq2Seq+Pyqt5文章摘要标题关键词辅助生成系统(含全部python工程源码)+训练数据集: 1.基于学术论文、维基百科等数据集，通过TextRank和Seq2Seq算法对模型进行优化和改进，构建一体化的文章摘要、标题和关键词辅助生成系统，设计、对接可视化界面，将程序封装为可执行文件并在PC端直接运行。...

论文研究-面向个性化站点的用户检索意图建模方法.pdf: 针对个性化站点较少考虑用户检索意图的问题，提出结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法，旨在不需要用户任何反馈的条件下，为用户推荐更满意的检索结果。...

grammar-aided-keyword-extractor-russian:俄语的语法辅助关键字提取器: 使用pymorphy2解析单词，并通过一种算法消除歧义，该算法在句子的上下文中提供最可能的标签序列。提取的关键字是符合语法中用户定义为有效POS标记序列的n-gram。关键字按其得分的降序排列和排序。 2.语法语法...

论文研究-基于用户标签的微博推荐算法.pdf: 利用TextRank排序方法提取用户发布微博中的关键词，并对该关键词进行扩展，将其作为表示用户兴趣的标签；再根据微博的效应函数和生命周期形成待推荐的微博列表，计算用户标签及其同义词在待推荐微博列表中出现的次数...

Java词频统计程序MVC: 本应用持续更新中

python实现的基于OSINT的超速爬虫: 利用OSINT的超速爬虫通常会从这些资源中提取关键词或特定域名的链接，并根据设定的规则来进行优先级排序和并发请求。这样可以最大限度地提高爬取的效率，从而在短时间内获取更多的数据。需要注意的是，在使用基于...

自己动手写搜索引擎(罗刚著).doc: 5.4.3 从网页提取关键词 107 5.5 相关搜索 107 5.6 拼写检查 110 5.6.1 英文拼写检查 110 5.6.2 中文拼写检查 112 5.7 自动摘要 116 5.7.1 自动摘要技术 117 5.7.2 自动摘要的设计 117 5.7.3 Lucene中的动态摘要 124...

英文单词词频统计: 大数据背景下经常需要提取关键词热词，该程序即完成对txt格式的英文内容进行词频统计，并按词频排序生成词频统计列表，通过对单词的预处理忽略's n't 'am “”大小写等形式过滤使程序更为准确

Global site tag (gtag.js) - Google Analytics