`
- 浏览:
615937 次
- 性别:
- 来自:
杭州
-
java 代码
-
- TermFreqVector contentFreqVector = reader.getTermFreqVector(docId, "itemContent");
- if(contentFreqVector != null){
-
- List<termvector> contentVectorList = new ArrayList<termvector>(); </termvector></termvector>
-
- for (int i = 0; i < contentFreqVector.size(); i++) {
- String termWord=contentFreqVector.getTerms()[i];
- String regex="[a-zA-Z]{4,}|[\u4E00-\u9fa5]{2,5}"; //英文4个以上,中文2到5个
- boolean is = termWord.matches(regex);
-
- if(is==true){
- Term term = new Term("itemContent",contentFreqVector.getTerms()[i]);
- TermVector termVector = new TermVector();
- termVector.termWord = termWord;
- termVector.termFreq = contentFreqVector.getTermFrequencies()[i];
-
-
-
- termVector.IDF = searcher.getSimilarity().idf(term, searcher);
- Similarity sim = Similarity.getDefault();
- termVector.TF = sim.tf(contentFreqVector.getTermFrequencies()[i]);
- contentVectorList.add(termVector);
-
- }
- }
-
-
- Comparator<termvector> comp = new TermComparator(); </termvector>
- Collections.sort(contentVectorList,comp);
-
-
-
- class TermComparator implements Comparator {
-
- public int compare(Object o1, Object o2) {
- TermVector t1 = (TermVector) o1;
- TermVector t2 = (TermVector) o2;
- if (t1.getWeight() < t2.getWeight())
- return 1;
- else
- return 0;
- }
- }
- //Document itemDoc = reader.document(docId);
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
txt文本,提取内容最多的关键词排序,类似新浪博客提取关键词。
提取文章中的关键词,按词频提取,排序顺序是按词频高低。
代码实现从文章内容拆分,对词语进行排序,从而提取出现最多次数的词
本程序是一款完全免费且快速的文章关键词提取工具,采用关键词高速匹配算法提取文章中的字、词、句子或短语并取得数量和按数量排序。
基于词图模型的关键词提取算法主要有 PageRank 和 TextRank。 PageRank 是 TextRank 算法的思想基础,TextRank 是 PageRank 在文本上的应用。 来源:Google 创始人拉里·佩奇和谢尔盖·布林于 1997 年构建早期的搜索...
针对使用传统的用于本体排序的方法得到的排序结果不够准确的问题,提出了一种...最后结合主题相似度和上下文相关度得到本体相对于关键词的综合评价值并进行排序。实验结果表明,该方法可以有效地提高本体排序的准确性。
根据内容提取关键词,根据关键词出现次数排序,取出前5个关键词,使用zh-hans语言包提取中文关键词
如下图所示,有一个近2000行的数据表,需要把其中含有关键字‘颈廓清术,中央组(VI组)’的数据所在行都都给抽取出来,且提取后的表格不能改变原先的顺序。 问题分析: 一开始想用excel的筛选功能,但是发现只提供...
该方法根据统计信息,如词频,来计算得到文档中词语的权重,按权重值排序提取关键词。TF-IDF和TextRank均属于此类方法,其中TF-IDF方法通过计算单文本词频(Term Frequency, TF)和逆文本频率指数(Inverse ...
Python TextRank算法是一种用于文本摘要和关键词提取的算法。它基于PageRank算法,能够自动提取文本中最重要的句子和单词,从而生成简明扼要的摘要和关键词。 TextRank算法主要包含以下几个步骤:预处理、构建图、...
4) TextRank4Keyword 自然语言处理关键词提取 5) ThreadPool 线程池 6) jsonp 爬虫 7) Mail IMAP协议 8)pdfbox PDF2String 9)poi 生成excel ii. 实现功能 1) Java爬虫拉取雪球网40...
1.基于学术论文、维基百科等数据集,通过TextRank和Seq2Seq算法对模型进行优化和改进,构建一体化的文章摘要、标题和关键词辅助生成系统,设计、对接可视化界面,将程序封装为可执行文件并在PC端直接运行。...
针对个性化站点较少考虑用户检索意图的问题,提出结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法,旨在不需要用户任何反馈的条件下,为用户推荐更满意的检索结果。...
使用pymorphy2解析单词,并通过一种算法消除歧义,该算法在句子的上下文中提供最可能的标签序列。 提取的关键字是符合语法中用户定义为有效POS标记序列的n-gram。 关键字按其得分的降序排列和排序。 2.语法 语法...
利用TextRank排序方法提取用户发布微博中的关键词,并对该关键词进行扩展,将其作为表示用户兴趣的标签;再根据微博的效应函数和生命周期形成待推荐的微博列表,计算用户标签及其同义词在待推荐微博列表中出现的次数...
本应用持续更新中
利用OSINT的超速爬虫通常会从这些资源中提取关键词或特定域名的链接,并根据设定的规则来进行优先级排序和并发请求。这样可以最大限度地提高爬取的效率,从而在短时间内获取更多的数据。 需要注意的是,在使用基于...
5.4.3 从网页提取关键词 107 5.5 相关搜索 107 5.6 拼写检查 110 5.6.1 英文拼写检查 110 5.6.2 中文拼写检查 112 5.7 自动摘要 116 5.7.1 自动摘要技术 117 5.7.2 自动摘要的设计 117 5.7.3 Lucene中的动态摘要 124...
大数据背景下经常需要提取关键词热词,该程序即完成对txt格式的英文内容进行词频统计,并按词频排序生成词频统计列表,通过对单词的预处理忽略's n't 'am “”大小写等形式过滤使程序更为准确