- 浏览: 1243197 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
大概想法是这样:
找词库完毕,剩下没有找到的所有字符串,进行新词挖掘。
例如:
一篇文章中,没有找到的所有字符串有:
1、杨瑞第集国宁你们
2、杨瑞来你们来国宁
3、过来要不要去
4、要不要过来啊
经过新词挖掘,可以得到
杨瑞->你们->国宁->要不要->过来->
欢迎大家测试!有更好的算法,也可以说一下,讨论讨论~~~
找词库完毕,剩下没有找到的所有字符串,进行新词挖掘。
例如:
一篇文章中,没有找到的所有字符串有:
1、杨瑞第集国宁你们
2、杨瑞来你们来国宁
3、过来要不要去
4、要不要过来啊
经过新词挖掘,可以得到
杨瑞->你们->国宁->要不要->过来->
欢迎大家测试!有更好的算法,也可以说一下,讨论讨论~~~
package wss.analysis.analyzer; import java.util.ArrayList; import java.util.Iterator; import java.util.List; /** * @author Loiy * @time 2011-10-26 * @return 新词挖掘 */ public class newWordAnalyzer { public List<String> list = new ArrayList<String>(); public List<String> word = new ArrayList<String>(); public void findWord(String text){ Iterator<String> iter = list.iterator(); while(iter.hasNext()){ String str = iter.next(); match(str,text); } list.add(text); } /** * @param s1 词库 * @param s2 待挖掘新词的字符串 * @return 查找两个字符串共同子字符串,并返回.子字符串必须大于等于2 */ public void match(String s1, String s2){ char c1[] = s1.toCharArray(); char c2[] = s2.toCharArray(); int j = 0; boolean bool = false; // 上次是否匹配成功 true 匹配成功 false 匹配失败 int start = -1,end = -1; // 开始匹配位置;结束匹配位置 for(int i = 0; i < c2.length; i++){ for(; j < c1.length; j++){ if(c2[i] == c1[j] && j != c1.length - 1){ // 找到匹配,还不到第二个循环最后一个字符 if(start == -1) start = i; if(i == c2.length - 1) end = i; // 到第一个循环最后,赋值把i赋值给end bool = true; j = j + 1; break; // 结束该循环,查找第一个循环的下个字符(A),A从第二个循环下标为j+1开始找 } if(c2[i] == c1[j] && j == c1.length - 1){ // 找到匹配,到第二个循环最后一个字符 end = i; // 这里i不需要减1,因为已经到了第二个循环最后一个元素 if(start != -1 && (end - start >= 1)){ // 相连字符长度大于等于2,打印出来 word.add(s2.substring(start, end + 1)); } j = 0; start = -1; end = -1; break; } if(bool){ //匹配到这个下标结束,开始总计到目前为止相连字符有多少个 end = i - 1; // 上次成功匹配到的字符位置 //System.out.println(end+" "+start); if(start != -1 && (end - start >= 1)){ // 相连字符长度大于等于2,打印出来 word.add(s2.substring(start, end + 1)); } //System.out.println("<--i="+i+" "+c2[i]+" j="+j+" "+c1[j]+"-->"); bool = false; start = -1; end = -1; i--; // 匹配失败,第一个循环下标减1 j = 0; // 第二个循环下标从零开始. break; } if(j == c1.length -1){ // 第一个循环某个字符到第二个循环最后一个字符,还是匹配不到,那么 j=0; j = 0; break; } } } if(start != -1 && (end - start >= 1)){ // 相连字符长度大于等于2,打印出来 word.add(s2.substring(start, end + 1)); } } public String toString(){ Iterator<String> iter = word.iterator(); StringBuffer sb = new StringBuffer(); while(iter.hasNext()){ String str = iter.next(); if(str.length() <= 1) continue; sb.append(str).append("->"); } String result = sb.toString(); sb.setLength(0); sb = null; return result; } public static void main(String args[]){ newWordAnalyzer wordExcavate = new newWordAnalyzer(); wordExcavate.findWord("杨瑞第集国宁你们"); wordExcavate.findWord("杨瑞来你们来国宁"); wordExcavate.findWord("过来要不要去"); wordExcavate.findWord("要不要过来啊"); String t = wordExcavate.toString(); System.out.println(t); } }
发表评论
-
平滑函数
2013-10-11 18:04 648http://wenku.baidu.com/view/3f0 ... -
作热排名算法(hot ranking)的工作原理
2013-08-29 23:11 1530重点描述上面两个公式: Ts = A – B 相当于 ... -
单向链表
2011-07-29 14:02 1001单向链表(单链表)是链表的一种,其特点是链表的链接方向是单向的 ... -
求最长公共子序列
2011-07-29 12:52 1123/** * 引进一个二维数组c[][],用c[i][j ... -
动态规划实例篇
2011-07-29 00:25 1266动态规划思想: 把问题规模不断缩小成小问题,并求解出小问题的结 ... -
动态规划的基本思想
2011-07-28 10:09 934前文主要介绍了动态规 ... -
LRU算法
2010-10-25 14:18 743标记一下!!! -
用整型来表示MD5生成的32位字符串
2010-09-02 23:17 1300由MD5生成的32位这样的字符串有N多。现在想问一下,怎么才能 ... -
水仙花数
2009-12-23 22:03 1013public class ShuiXianTest { ... -
LZW压缩算法原理及其Java实现
2009-04-01 21:42 8594LZW压缩算法是一种新颖 ... -
LZW数据压缩算法的原理分析
2009-04-01 21:40 2278我希望通过本文的介绍,能给那些目前不太了解lzw算法和该算 ... -
关键词权重的量化方法TF/IDF
2008-12-28 22:14 7951写这篇文章前,一定要说明一点,我对算法也是刚刚开始研究,一定会 ... -
tf-idf
2008-12-28 22:12 2439TF-IDF(term frequency–inverse d ... -
课题背景概述
2008-12-28 02:58 1804文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人 ... -
KNN算法 基本思想
2008-12-27 10:08 5253KNN(K 最近邻居)算法 该算法的基本思路是:在给定新 ... -
基于词性的特征提取方法
2008-12-27 09:58 5217上一节所介绍的这些方 ... -
谈 Page Rank – Google 的民主表决式网页排名技术
2008-12-25 07:44 893谈 Page Rank – Google 的民 ... -
一个网页和某个查询的相关性
2008-12-25 07:32 867[我们已经谈过了如何自 ... -
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
2008-12-25 06:29 954数学之美系列六 -- 图论 ... -
数学之美系列一:图论和网络爬虫 (Web Crawlers)
2008-12-25 06:16 1429数学之美系列一:图论 ...
相关推荐
识别出的新词结果还可以进一步编辑标注,编辑好的新词词典,可以作为专业知识库导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化情况。文本特征词发现系统LJFeatureDet,此系统能够识别出文本集合中的...
对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。 4. 统计分析与术语翻译 针对切分标注结果,系统可以自动地进行一元词频统计、二元词语...
"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成...
LJParser文本搜索与挖掘开发平台包括:全文精准搜索,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热点发现,分类过滤,自动摘要,关键词提取,文档去重,正文提取等十余项功能。针对互联网内容处理的...
知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感...
该模型基于Transformer架构,融入了大规模的中文语料库训练,提供了丰富的语言分析能力,包括分词、词性标注、命名实体识别等。它不仅能够处理标准的中文文本,还能应对各种复杂的语言现象,如新词、网络用语等。zh_...
该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现...
百度输入法是一款由百度推出的专业好用的智能输入法,输入法以百度强大的数据挖掘和中文分词技术为基础,借助百度自身的搜索技术,可以最准确的找到互联网的流行词汇,支持全拼、简拼和中英文混拼三种模式,其输入法...
知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感...
对问答系统中的问句理解技术进行了深入研究,提出了对问句信息进行深层挖掘形成问句表征。对问句进行分词、去停用词等预处理;结合FAQ库和网络对问句进行关键词扩展,以网络为语料库,利用N元语法模型对问句中的新词...