相关推荐
-
国内外优秀开源项目创始人专访
这几年陆续采访了国内外一些优秀开源项目的zuozh
-
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...
-
中文分词工具Rwordseg
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...
-
中文分词的应用 新浪和庖丁两种方式对比
中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...
-
Lucene下分词工具的学习探讨
今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...
-
NLP自然语言处理干货贴
摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...
-
高校学生选课系统项目源码资源
项目名称: 高校学生选课系统 内容概要: 高校学生选课系统是为了方便高校学生进行选课管理而设计的系统。该系统提供了学生选课、查看课程信息、管理个人课程表等功能,同时也为教师提供了课程发布和管理功能,以及管理员对整个选课系统的管理功能。 适用人群: 学生: 高校本科生和研究生,用于选课、查看课程信息、管理个人课程表等。 教师: 高校教师,用于发布课程、管理课程信息和学生选课情况等。 管理员: 系统管理员,用于管理整个选课系统,包括用户管理、课程管理、权限管理等。 使用场景及目标: 学生选课场景: 学生登录系统后可以浏览课程列表,根据自己的专业和兴趣选择适合自己的课程,并进行选课操作。系统会实时更新学生的选课信息,并生成个人课程表。 教师发布课程场景: 教师登录系统后可以发布新的课程信息,包括课程名称、课程描述、上课时间、上课地点等。发布后的课程将出现在课程列表中供学生选择。 管理员管理场景: 管理员可以管理系统的用户信息,包括学生、教师和管理员账号的添加、删除和修改;管理课程信息,包括课程的添加、删除和修改;管理系统的权限控制,包括用户权限的分配和管理。 目标: 为高校学生提
-
TC-125 230V 50HZ 圆锯
TC-125 230V 50HZ 圆锯
-
影音娱乐北雨影音系统 v1.0.1-bymov101.rar
北雨影音系统 v1.0.1_bymov101.rar 是一个计算机专业的 JSP 源码资料包,它为用户提供了一个强大而灵活的在线影音娱乐平台。该系统集成了多种功能,包括视频上传、播放、分享和评论等,旨在为用户提供一个全面而便捷的在线视频观看体验。首先,北雨影音系统具有强大的视频上传功能。用户可以轻松地将本地的视频文件上传到系统中,并与其他人分享。系统支持多种视频格式,包括常见的 MP4、AVI、FLV 等,确保用户能够方便地上传和观看各种类型的视频。其次,该系统提供了丰富的视频播放功能。用户可以选择不同的视频进行观看,并且可以调整视频的清晰度、音量等参数,以适应不同的观看需求。系统还支持自动播放下一个视频的功能,让用户可以连续观看多个视频,无需手动切换。此外,北雨影音系统还提供了一个社交互动的平台。用户可以在视频下方发表评论,与其他观众进行交流和讨论。这为用户之间的互动提供了便利,增加了观看视频的乐趣和参与感。最后,该系统还具备良好的用户体验和界面设计。界面简洁明了,操作直观易用,让用户可以快速上手并使用各项功能。同时,系统还提供了个性化的推荐功能,根据用户的观看历史和兴趣,为用户推荐
-
Tripp Trapp 儿童椅用户指南 STOKKE
Tripp Trapp 儿童椅用户指南
-
node-v8.13.0-linux-armv6l.tar.gz
Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。
-
谷歌浏览器 64位-89.0.4389.128.exe
Windows版本64位谷歌浏览器,是由Google谷歌公司开发的一款电脑版网络浏览器,可以运行在Windows 10/8.1/8/7 64位的操作系统上。该浏览器是基于其它开放原始码软件所撰写,包括WebKit和Mozilla,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。软件的特点是简洁、快速。并且支持多标签浏览,每个标签页面都在独立的“沙箱”内运行,在提高安全性的同时,一个标签页面的崩溃也不会导致其他标签页面被关闭。此外,谷歌浏览器(Google Chrome)基于更强大的JavaScript V8引擎,这是当前Web浏览器所无法实现的。
-
适用于鲲鹏麒麟的OpenJDK1.8
适用于鲲鹏麒麟的OpenJDK1.8
-
毕业设计-基于SSH的任务调度系统的设计与实现
任务调度试系统,基本功能包括:用户的注册、用户的登录、发起项目、项目详细及搜索等。本系统结构如下: (1)用户的注册登录: 注册模块:完成用户注册功能; 登录模块:完成用户登录功能; (2)发起项目: 发起项目模块:完成了项目及项目下一个或者多个任务的添加; 项目详细:点击项目名称,可以看到项目及任务详细信息; 搜索项目:完成对项目名称的模糊搜索功能 任务调度试系统,基本功能包括:用户的注册、用户的登录、发起项目、项目详细及搜索等。本系统结构如下: (1)用户的注册登录: 注册模块:完成用户注册功能; 登录模块:完成用户登录功能; (2)发起项目: 发起项目模块:完成了项目及项目下一个或者多个任务的添加; 项目详细:点击项目名称,可以看到项目及任务详细信息; 搜索项目:完成对项目名称的模糊搜索功能
-
30个炫酷的数据可视化大屏(含源码)
大屏数据可视化是以大屏为主要展示载体的数据可视化设计,30个可视化大屏包含源码,直接运行文件夹中的index.html,即可看到大屏。 内含:数据可视化页面设计;数据可视化演示系统;大数据可视化监管平台;智能看板;翼兴消防监控;南方软件视频平台;全国图书零售监测数据;晋城高速综合管控大数据;无线网络大数据平台;设备大数据;游戏数据大屏;厅店营业效能分析;车辆综合管控平台;政务大数据共享交换平台;智慧社区;物流云数据看板平台;风机可视化大屏等。
-
基于yolov5识别算法实现的DNF自动脚本源码.zip
优秀源码设计,详情请查看资源源码内容
-
毕业设计:基于SSM的mysql-在线网上书店(源码 + 数据库 + 说明文档)
毕业设计:基于SSM的mysql_在线网上书店(源码 + 数据库 + 说明文档) 2.系统分析与设计 3 2.1系统分析 3 2.1.1需求分析 3 2.1.2必要性分析 3 2.2系统概要设计 3 2.2.1 项目规划 3 2.2.2系统功能结构图 4 2.3开发及运行环境 4 2.4逻辑结构设计 5 2.4.1 数据库概要说明 5 2.4.2 主要数据表结构 6 2.5文件夹架构 9 2.6编写JAVA BEAN 9 3.网站前台主要功能模块设计 10 3.1前台首页架构设计 10 3.2网站前台首页设计 11 3.3新书上市模块设计 12 3.4特价书籍模块设计 13 3.5书籍分类模块设计 14 3.6会员管理模块设计 15 3.7购物车模块设计 17 3.8收银台设计模块 19 3.9畅销书籍模块设计 20 4.网站后台主要功能模块设计 21 4.1网站后台文件夹架构设计 21 4.2后台主页面设计 21 4.3书籍管理模块设计 22 4.4会员管理模块设计 25 4.5订单管理模块设计 26 4.6公告管理模块设计 28 4.7退出系统页面设计 29 5.网站制作中遇到的问
-
python 开发 python爬虫数据可视化分析项目源码加课题报告,源码注解清晰一看就懂,适合新手.zip
python 开发 python爬虫数据可视化分析项目源码加课题报告,源码注解清晰一看就懂,适合新手
-
node-v8.0.0-linux-armv7l.tar.gz
Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。
166 楼 ansjsun 2013-11-19 11:46
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
165 楼 cdmamata 2013-11-19 11:37
164 楼 ansjsun 2013-11-01 11:10
http://stackoverflow.com/questions/4877691/is-it-possible-to-run-several-map-task-in-one-jvm/4878134#4878134
To my best knowledge, there is no easy way for multiple map tasks (Hadoop) to share static data structures.
This is actually a known problem for current Map Reduce model. The reason that current implementation doesn't share static datas across map tasks is because Hadoop is designed to be highly reliable. As a result, if a task fails, it will only crash its own JVM. It will not impact the execution of other JVMs.
163 楼 andyshar 2013-10-31 15:05
http://stackoverflow.com/questions/4877691/is-it-possible-to-run-several-map-task-in-one-jvm/4878134#4878134
To my best knowledge, there is no easy way for multiple map tasks (Hadoop) to share static data structures.
This is actually a known problem for current Map Reduce model. The reason that current implementation doesn't share static datas across map tasks is because Hadoop is designed to be highly reliable. As a result, if a task fails, it will only crash its own JVM. It will not impact the execution of other JVMs.
162 楼 ansjsun 2013-10-22 13:19
语义分析是构建语法树吗?如果有兴趣欢迎加入的。目前ansj没有语法树的构建。
关于hadoop jvm重用很简单的
http://jerrylead.iteye.com/blog/1195335
可以参考这里。我很早以前设置过一次。
词库的加载和分词其实是分开的。因为用户自定义辞典是外部的。。最新的ansj只提供了基础辞典大约10w个词左右。这10w个词主要用来处理歧义。
161 楼 andyshar 2013-10-22 10:18
160 楼 ansjsun 2013-10-21 17:26
请问这个公式的原理是?有没有相关的文章可以推荐一下,还有就是MAX_FREQUENCE的取值为什么是2079997,后边那个80000又是怎么来的?多谢了!
抄袭来的。。。:-)。你可以看最大熵马尔科夫。。然后看看北野斯。。就这两个东西。。。
159 楼 rtygbwwwerr 2013-10-21 16:28
请问这个公式的原理是?有没有相关的文章可以推荐一下,还有就是MAX_FREQUENCE的取值为什么是2079997,后边那个80000又是怎么来的?多谢了!
158 楼 woshiliulei0 2013-10-20 18:11
我从github上面下载的jar包中包含好像两个版本、第三个是从网上下载的
①ansj_seg-0.9.jar,文件大小4.63M,里面有company,META-INF,nature,newWord,org
,person,arrays.dic,bigramdict.dic,englishLibrary.dic,jianFan.dic,numberLibrary.dic,但是里面没有library.properties文件
②ansj_seg-0.8.jar.jar,文件大小7.5M,里面有文件
③ans_seg-20130615.jar(这是从网上下载的版本)里面有文件love,META-INF,org,library.properties,
写了个最简单的程序,也创建了自定义词典library/userLibrary/userLibrary.dic
public static void main(String[] args) {
// TODO Auto-generated method stub
List paser = ToAnalysis.parse("csdn创新院是一个好公司");
System.out.println(paser);
}
但是只有第①个jar包导入项目中能分词,但是不能按照自定义字典的字分,
第③②个直接在程序运行时就报错,也不能分词
init user userLibrary ok path is : D:\MyEclipse8.5\java1\library\userLibrary\userLibrary.dic
init ambiguity waring :null because : not find that file or can not to read !
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.lang.String.substring(String.java:1940)
at java.lang.String.subSequence(String.java:1973)
at java.util.regex.Pattern.split(Pattern.java:1002)
at java.lang.String.split(String.java:2293)
at java.lang.String.split(String.java:2335)
at org.ansj.domain.TermNature.setNatureStrToArray(Unknown Source)
at org.ansj.library.InitDictionary.initArrays(Unknown Source)
at org.ansj.library.InitDictionary.initArrays(Unknown Source)
at org.ansj.library.InitDictionary.init(Unknown Source)
at org.ansj.library.InitDictionary.<clinit>(Unknown Source)
at org.ansj.splitWord.Analysis.analysis(Unknown Source)
at org.ansj.splitWord.Analysis.analysisStr(Unknown Source)
at org.ansj.splitWord.Analysis.parseStr(Unknown Source)
at org.ansj.splitWord.analysis.ToAnalysis.parse(Unknown Source)
at java.main(java.java:20)
一定要帮帮我啊,最好加我qq:1759242922,在线请教你一下。谢谢谢谢。。。。
157 楼 ansjsun 2013-10-18 21:02
int[][] locFreq,debug了一下,发现里边是一个变长的数组
{{x,x}{x,x,x}{x,x,x,x}},请问这里边数值的含义是什么?
这个是。每个名字在词位置的频率。。你得看注释。。大概就是这个意思
156 楼 ansjsun 2013-10-18 21:00
是很慢。。因为辞典加载比较耗时。你可以每个task重用jvm来解决。。部分人名识别是有错误的但是也是不可避免的。
155 楼 rtygbwwwerr 2013-10-18 16:53
int[][] locFreq,debug了一下,发现里边是一个变长的数组
{{x,x}{x,x,x}{x,x,x,x}},请问这里边数值的含义是什么?
154 楼 andyshar 2013-10-18 11:20
153 楼 ansjsun 2013-10-12 18:47
package org.ansj.app.keyword;找不到包呢,是什么情况,如果放到java web 中怎么用呢,求解
这是maven项目的结构。。
152 楼 woshiliulei0 2013-10-12 09:03
package org.ansj.app.keyword;找不到包呢,是什么情况,如果放到java web 中怎么用呢,求解
151 楼 rtygbwwwerr 2013-10-11 09:56
150 楼 ansjsun 2013-10-10 19:40
看了下InitDictionary.java中的注释,注释内容是“数组用来存放单词的转换..其实就是一个DFA转换过程”,还是甚感疑惑。求指教,谢谢!
那些数字是数组的下标..你得看双数组tire树就明白了
149 楼 rtygbwwwerr 2013-10-10 19:15
看了下InitDictionary.java中的注释,注释内容是“数组用来存放单词的转换..其实就是一个DFA转换过程”,还是甚感疑惑。求指教,谢谢!
148 楼 曾洪星 2013-10-08 17:33
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
谢谢你的回答!还有2个疑问:
1.刚刚更新了最新版本,发现核心词典的词数好像少了很多,想问下这个词典的更改是出于什么原则?
2.发现的新词好像是加到一个树里边的吧,那这些词是怎么在以后的分词中起作用的?好像分词的过程里并没有使用到这个树吧?
刚接触这方面的知识,请指教,谢谢啦!
1.核心辞典保证词的最基本的颗粒度。。就是颗粒度越细越好。但是不好是一个字。起到一个消歧义的过程。遮阳ngrame的纬度也少一些。
2.新词发现的树是一个数据结构。。本身没有什么意义。。。倒是有一个用户自定义辞典的树是有用的
明白了,thx~~
147 楼 ansjsun 2013-10-08 16:49
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
谢谢你的回答!还有2个疑问:
1.刚刚更新了最新版本,发现核心词典的词数好像少了很多,想问下这个词典的更改是出于什么原则?
2.发现的新词好像是加到一个树里边的吧,那这些词是怎么在以后的分词中起作用的?好像分词的过程里并没有使用到这个树吧?
刚接触这方面的知识,请指教,谢谢啦!
1.核心辞典保证词的最基本的颗粒度。。就是颗粒度越细越好。但是不好是一个字。起到一个消歧义的过程。遮阳ngrame的纬度也少一些。
2.新词发现的树是一个数据结构。。本身没有什么意义。。。倒是有一个用户自定义辞典的树是有用的
146 楼 曾洪星 2013-10-08 16:01
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
谢谢你的回答!还有2个疑问:
1.刚刚更新了最新版本,发现核心词典的词数好像少了很多,想问下这个词典的更改是出于什么原则?
2.发现的新词好像是加到一个树里边的吧,那这些词是怎么在以后的分词中起作用的?好像分词的过程里并没有使用到这个树吧?
刚接触这方面的知识,请指教,谢谢啦!
145 楼 ansjsun 2013-10-08 14:11
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
144 楼 曾洪星 2013-10-07 16:25
143 楼 ansjsun 2013-09-12 21:19
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
望回复
明白了,library 是用户词库,是作为外部资源使用的。另外,用户自定义词库文件 *.dic 的格式可否说明一下
看我github的wiki里面有这个格式的说明...
142 楼 cdmamata 2013-09-11 10:29
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
望回复
明白了,library 是用户词库,是作为外部资源使用的。另外,用户自定义词库文件 *.dic 的格式可否说明一下
141 楼 cdmamata 2013-09-11 09:41
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
望回复
140 楼 cdmamata 2013-09-11 09:40
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
139 楼 ansjsun 2013-06-04 09:37
如果没有起作用.可能是因为.1.词典没有读取到.2.用户自定义词与粗分结果.产生冲突.这种情况会按照粗分接过来算.
临时加入到词典的.是放到内存中.不会写入到文件的..
为什么会出现词典没有读取到呢,library.properties文件中不是已经指定路径了么,我是直接下的源码运行的不是jar包,请问读取自定义词典的具体类和方法在哪,多谢!
UserDefineLibrary.loadFile(UserDefineLibrary.FOREST, new File("词典路径")) ;
可以通过这种方式来加载..
看这里
https://github.com/ansjsun/ansj_seg/wiki/%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E8%B7%AF%E5%BE%84%E8%AE%BE%E7%BD%AE
ps:
138 楼 violet0925 2013-06-04 08:43
如果没有起作用.可能是因为.1.词典没有读取到.2.用户自定义词与粗分结果.产生冲突.这种情况会按照粗分接过来算.
临时加入到词典的.是放到内存中.不会写入到文件的..
为什么会出现词典没有读取到呢,library.properties文件中不是已经指定路径了么,我是直接下的源码运行的不是jar包,请问读取自定义词典的具体类和方法在哪,多谢!
137 楼 ansjsun 2013-06-03 16:32
如果没有起作用.可能是因为.1.词典没有读取到.2.用户自定义词与粗分结果.产生冲突.这种情况会按照粗分接过来算.
临时加入到词典的.是放到内存中.不会写入到文件的..