相关推荐
-
国内外优秀开源项目创始人专访
这几年陆续采访了国内外一些优秀开源项目的zuozh
-
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...
-
中文分词工具Rwordseg
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...
-
中文分词的应用 新浪和庖丁两种方式对比
中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...
-
Lucene下分词工具的学习探讨
今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...
-
NLP自然语言处理干货贴
摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...
-
pre_o_1csdn63m9a1bs0e1rr51niuu33e.a
pre_o_1csdn63m9a1bs0e1rr51niuu33e.a
-
matlab建立计算力学课程的笔记和文件.zip
matlab建立计算力学课程的笔记和文件.zip
-
FT-Prog-v3.12.38.643-FTD USB 工作模式设定及eprom读写
FT_Prog_v3.12.38.643--FTD USB 工作模式设定及eprom读写
-
matlab基于RRT和人工势场法混合算法的路径规划.zip
matlab基于RRT和人工势场法混合算法的路径规划.zip
-
matlab基于matlab的两步定位软件定义接收机的开源GNSS直接位置估计插件模块.zip
matlab基于matlab的两步定位软件定义接收机的开源GNSS直接位置估计插件模块.zip
-
office 2016三和一精简版
office 2016三和一精简版
-
Scrapy-1.0.2-py2-none-any.whl
文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。
-
麦肯锡咨询顾问必备宝典-时间管理.ppt
麦肯锡咨询顾问必备宝典-时间管理.ppt
-
setuptools-0.6c10-py2.4.egg
文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。
-
麦肯锡顾问的黄金思考方法.pptx
麦肯锡顾问的黄金思考方法.pptx
-
91fdd461elb59a4ce8dfcfc46bc283a7.msi
91fdd461elb59a4ce8dfcfc46bc283a7.msi
-
ansys maxwell
ansys maxwell
-
5-5.py
5-5
136 楼 violet0925 2013-06-03 14:30
135 楼 ansjsun 2013-05-30 10:56
不支持......那是翻译该干的事情吧..不能抢别人饭碗
134 楼 345542875 2013-05-30 09:46
133 楼 ansjsun 2013-05-29 17:20
不支持......那是输入法该干的事情吧..不能抢别人饭碗
132 楼 345542875 2013-05-29 16:52
131 楼 x541211190 2013-04-14 14:04
1.你说的我明白,我把项目放在web上,但是它会有“Exception in thread "ContainerBackgroundProcessor[StandardEngine[Catalina]]" java.lang.OutOfMemoryError: Java heap space”异常,因为如果你的WEB APP下都用了第三方jar, 其大小超过了jvm默认的大小(4M)那么就会产生此错误信息。这个怎么办?
2.我想把它放在web上,输入一行字,然后后台分词后,显示在html网页上,就像“在线测试”一样,只不过放在我的项目里而已。请赐教
这是内存溢出了..你得调整tomcat的内存大小...
你要的效果是这样的吧 http://demo.ansj.org
把邮箱给我我发你邮箱算了
541211190@qq.com
130 楼 ansjsun 2013-04-14 13:02
1.你说的我明白,我把项目放在web上,但是它会有“Exception in thread "ContainerBackgroundProcessor[StandardEngine[Catalina]]" java.lang.OutOfMemoryError: Java heap space”异常,因为如果你的WEB APP下都用了第三方jar, 其大小超过了jvm默认的大小(4M)那么就会产生此错误信息。这个怎么办?
2.我想把它放在web上,输入一行字,然后后台分词后,显示在html网页上,就像“在线测试”一样,只不过放在我的项目里而已。请赐教
这是内存溢出了..你得调整tomcat的内存大小...
你要的效果是这样的吧 http://demo.ansj.org
把邮箱给我我发你邮箱算了
129 楼 x541211190 2013-04-14 00:36
我原来一直用的中科院分词,最近看到了您的这款,觉得不错,所以想弄个java web版本的,在eclipse中tomcat服务器上能运行的,如果您有的话可不可以给看一下项目部署及源码。邮箱541211190@qq.com
哦....web版啊....
来这里 下载最新的jar
https://github.com/ansjsun/ansj_seg/tree/master/dist
然后放到WEB-INF/lib目录中
就ok了
你可以在你程序的任意地方调用
List all = ToAnalysis.paser([分词的字符串]) ;
和普通java调用一样...
如果你要加载用户自定义词典
看这里..
https://github.com/ansjsun/ansj_seg/wiki/%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E8%B7%AF%E5%BE%84%E8%AE%BE%E7%BD%AE
Test文件夹我在本地测试过了,效果不错,但Src里的那些怎么运行不了,请指教? Src的那些应该是完整版的吧?
你不是做java的吧...
src是源码..你要用..直接
来 这里
https://github.com/ansjsun/ansj_seg/tree/master/dist
下载个jar就可以用了不需要src
1.你说的我明白,我把项目放在web上,但是它会有“Exception in thread "ContainerBackgroundProcessor[StandardEngine[Catalina]]" java.lang.OutOfMemoryError: Java heap space”异常,因为如果你的WEB APP下都用了第三方jar, 其大小超过了jvm默认的大小(4M)那么就会产生此错误信息。这个怎么办?
2.我想把它放在web上,输入一行字,然后后台分词后,显示在html网页上,就像“在线测试”一样,只不过放在我的项目里而已。请赐教
128 楼 ansjsun 2013-04-13 20:15
我原来一直用的中科院分词,最近看到了您的这款,觉得不错,所以想弄个java web版本的,在eclipse中tomcat服务器上能运行的,如果您有的话可不可以给看一下项目部署及源码。邮箱541211190@qq.com
哦....web版啊....
来这里 下载最新的jar
https://github.com/ansjsun/ansj_seg/tree/master/dist
然后放到WEB-INF/lib目录中
就ok了
你可以在你程序的任意地方调用
List all = ToAnalysis.paser([分词的字符串]) ;
和普通java调用一样...
如果你要加载用户自定义词典
看这里..
https://github.com/ansjsun/ansj_seg/wiki/%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E8%B7%AF%E5%BE%84%E8%AE%BE%E7%BD%AE
Test文件夹我在本地测试过了,效果不错,但Src里的那些怎么运行不了,请指教? Src的那些应该是完整版的吧?
你不是做java的吧...
src是源码..你要用..直接
来 这里
https://github.com/ansjsun/ansj_seg/tree/master/dist
下载个jar就可以用了不需要src
127 楼 x541211190 2013-04-13 19:29
我原来一直用的中科院分词,最近看到了您的这款,觉得不错,所以想弄个java web版本的,在eclipse中tomcat服务器上能运行的,如果您有的话可不可以给看一下项目部署及源码。邮箱541211190@qq.com
哦....web版啊....
来这里 下载最新的jar
https://github.com/ansjsun/ansj_seg/tree/master/dist
然后放到WEB-INF/lib目录中
就ok了
你可以在你程序的任意地方调用
List all = ToAnalysis.paser([分词的字符串]) ;
和普通java调用一样...
如果你要加载用户自定义词典
看这里..
https://github.com/ansjsun/ansj_seg/wiki/%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E8%B7%AF%E5%BE%84%E8%AE%BE%E7%BD%AE
Test文件夹我在本地测试过了,效果不错,但Src里的那些怎么运行不了,请指教? Src的那些应该是完整版的吧?
126 楼 ansjsun 2013-04-13 11:50
我原来一直用的中科院分词,最近看到了您的这款,觉得不错,所以想弄个java web版本的,在eclipse中tomcat服务器上能运行的,如果您有的话可不可以给看一下项目部署及源码。邮箱541211190@qq.com
哦....web版啊....
来这里 下载最新的jar
https://github.com/ansjsun/ansj_seg/tree/master/dist
然后放到WEB-INF/lib目录中
就ok了
你可以在你程序的任意地方调用
List all = ToAnalysis.paser([分词的字符串]) ;
和普通java调用一样...
如果你要加载用户自定义词典
看这里..
https://github.com/ansjsun/ansj_seg/wiki/%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E8%B7%AF%E5%BE%84%E8%AE%BE%E7%BD%AE
125 楼 x541211190 2013-04-13 10:29
我原来一直用的中科院分词,最近看到了您的这款,觉得不错,所以想弄个java web版本的,在eclipse中tomcat服务器上能运行的,如果您有的话可不可以给看一下项目部署及源码。邮箱541211190@qq.com
124 楼 ansjsun 2013-04-12 20:31
你确定研究分词很长时间了么..分词和jsp不沾边的..亲...
https://github.com/ansjsun/ansj_seg 这里能下载源码不过我真不会用jsp写这个
123 楼 x541211190 2013-04-12 17:42
122 楼 ansjsun 2013-03-29 11:18
好了...你再试试..免费空间,不稳定呵呵
121 楼 小网客 2013-03-28 16:56
120 楼 java__eye 2013-03-14 11:43
119 楼 ansjsun 2012-11-17 16:12
lucene_32.jar
里面org.ansj.lucene3.AnsjAnalysis.java
肯定定有的.....你没把jar加入到环境变量吧??或者你看看项目里面是不是有错误的jar
118 楼 song_in_china 2012-11-17 15:34
117 楼 song_in_china 2012-11-17 15:27
116 楼 tulip11088 2012-11-13 00:01
115 楼 ffychina 2012-11-12 18:35
114 楼 wangguo 2012-11-12 12:36
如果是说歪楼了,那歪楼的评论还有两类没删除:阿谀奉承的(说了几句跟技术讨论毫无关系的好话就走的),还有一类就是指责我没资格的、说我是喷子的、怪我没说好听的,这种跟文章主题毫无关系的,为什么不删除呢?为什么只删我反驳的,不删除先指责我的呢?有这么拉“偏架”的吗?
ok了,到此为止吧
如果有人再发攻击你的帖子,或者是语言争论的帖子,一概删除
你也不要再发类似帖子了,否则,也一概删除
请把讨论对象放在Ansj上
113 楼 fyland 2012-11-12 12:02
如果是说歪楼了,那歪楼的评论还有两类没删除:阿谀奉承的(说了几句跟技术讨论毫无关系的好话就走的),还有一类就是指责我没资格的、说我是喷子的、怪我没说好听的,这种跟文章主题毫无关系的,为什么不删除呢?为什么只删我反驳的,不删除先指责我的呢?有这么拉“偏架”的吗?
112 楼 linliangyi2007 2012-11-12 11:33
不过之前建议先把“语言之争”的所有相关回复删了吧,第一,是严重歪楼了,第二,这样的讨论毫无意义,且严重影响对主题的讨论啊
中文分词的专业人士林老师也来了啊。这次终于高手交流了。我用的是您的智能分词2012
折杀我也!
跟楼主这个“科班”算法相比,偶的是草根“山寨”算法,哈哈!
111 楼 lection.yu 2012-11-12 11:03
不过之前建议先把“语言之争”的所有相关回复删了吧,第一,是严重歪楼了,第二,这样的讨论毫无意义,且严重影响对主题的讨论啊
中文分词的专业人士林老师也来了啊。这次终于高手交流了。我用的是您的智能分词2012
110 楼 linliangyi2007 2012-11-12 10:21
不过之前建议先把“语言之争”的所有相关回复删了吧,第一,是严重歪楼了,第二,这样的讨论毫无意义,且严重影响对主题的讨论啊
109 楼 song_in_china 2012-11-10 00:53
.......主要看 ToAnalysis.java 这个类..其中有很多技术细节..比较专..说实话..ictclas算法本来就有点天书的味道...如果你想看原理..还得了解 .hmm和vterbi算法..和ngram语义模型..如果你想看热闹..就看看..tree-split..在我的git里面有...那个代码简单..我觉得是个数据结构的经典..
谢谢你的回复。你给我留个邮箱或者什么的 我再联系你,我的是1738042258@qq.com 你给我send一个字就知道了
108 楼 ansjsun 2012-11-09 21:49
.......主要看 ToAnalysis.java 这个类..其中有很多技术细节..比较专..说实话..ictclas算法本来就有点天书的味道...如果你想看原理..还得了解 .hmm和vterbi算法..和ngram语义模型..如果你想看热闹..就看看..tree-split..在我的git里面有...那个代码简单..我觉得是个数据结构的经典..
107 楼 ansjsun 2012-11-09 21:45
复旦NLP能把这几个识别出来了,我研究下它的源码看看!
{微信=100, 王道=15, 乳量=7, 识别=7, 泰国=0}
是的我感觉他那个句法分析很棒..效果很酷..好好研究..给我提交代码啊