最新文章列表

Hanlp在java中文分词中的使用介绍

  项目结构     该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载 项目配置 修改hanlp.properties:      1 #/Test/src/hanlp.properties:  
adnb34g 评论(0) 有1117人浏览 2018-11-30 14:05

NLPIR智能语义技术为科研大数据挖掘提供不同体验

  在互联网络迅猛发展的今天,各行各业都积累了大量宝 贵的数据资料。科研信息领域亦是如此,卷数越来越多、内容越来越复杂的科技期刊文献,日益增厚的会议论文集等,给无数刚刚接触科研工作的初学者带来不小的麻烦,让他们无从下手、无所适从。同时,科研领域所面对的数据多为非结构化的文本数据,与传统的结构化的数据处理方式不尽相同。   文本挖掘是数据挖掘领域的一个重要分支,又称为文本数据挖掘或文本知识发现,是指为 ...
ljrj12345 评论(0) 有16人浏览 2018-07-30 11:55

NLPIR-JZSearch智能搜索引擎精准挖掘自然语言

  随着因特网的飞速发展,网上信息正在成指数级增长。如何有效地获得人们需要的信息,成为一个很重要的问题。由于传统的引擎不能适应信息技术 ...
ljrj12345 评论(0) 有31人浏览 2018-06-13 16:14

灵玖软件:NLPIR语义技术数据挖掘舆情预测

  大数据"是目前的热门词汇,本文分析了大数据和大数据分析等基本概念和大数据的特点。大数据技术的意义不在于掌握庞大的数据信息,而在于 ...
ljrj12345 评论(0) 有37人浏览 2018-05-02 16:14

NLPIR语义智能平台大数据技术的重新整合

  随着计算机技术的发展,信息数据越来越多,如何从海量数据中提取对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术, ...
ljrj12345 评论(0) 有38人浏览 2018-04-02 15:55

NLPIR-Parser系统是文本智能语义深度挖掘的钥匙

  随着互联网时代的大发展,数据记录逐步脱离了纸笔的限制,人类发明了廉价的硅晶半导体所蕴藏的秘密,大量的数据可以按0或1的二进制方式存储半导体材料内,它们的存储能力如此巨大,成本如此低廉,以至于以往被轻易忽略的数据都能被忠实的保存下来。 与此同时,数据的概念也在进一步拓宽。传统的数据是指用数字或文字描述的内容,通称为结构化数据,而大数据时代涌现出了大量新型数据的、非结构化的数据。而正在发生的大数据变 ...
ljrj12345 评论(0) 有246人浏览 2018-03-14 14:56

NLPIR文本智能分词是语义挖掘的关键

  词法分析是自然语言处理的基础与关键。在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节,已被广泛应用于中文文本处理、信息提取、文本挖掘等应用中。   一个自然语言处理系统必须考虑许多语言 ...
ljrj12345 评论(0) 有30人浏览 2018-02-27 15:00

灵玖软件:大数据挖掘技术比数据更重要

  数据与信息是重要的生产要素和战略资产,已在全球达成共识。然而,失去控制和无组织的数据和信息却不能很好地发挥战略资产的作用。信息挖掘是对文献、数据等信息资源对象进行分类、标引、描述、揭示,使之有序化、系统化的过程,其目的恰好是将无序的、分散的数据和信息整理成有序的信息资源,保证用户的有效获取和利用。因此,信息挖掘对于大数据资源的管理与利用具有重要作用。   同时,当前的大数据环境给信息挖掘带来了巨 ...
ljrj12345 评论(0) 有43人浏览 2018-01-10 15:41

灵玖软件:大数据语言新特征发现

  信息的基本单位是句子,一个句子可以较表达完整连贯的易于理解的语义。句子中起主要作用的往往是关键词、词组或短语,而句子中的其他成分只是起到进一步修饰连接的作用,它们只是对基本信息的细化和补充。一旦获取了这些有意义的关键信息,便能获取句子的基本信息。因此,新特征语言和有意义串发现对中文自然语言理解是很有意义的。发现频繁使用的新词和短语等有意义串不仅能改进分词准确率,也有着其他广泛的应用前景。   而 ...
ljrj12345 评论(0) 有29人浏览 2017-12-21 15:31

NLPIR深度机器学习的文本分类

近年来,随着Intemet的迅猛发展,网络信息和数据信息不断扩张,如何有效利用这一丰富的数据信息,已成为广大信息技术工作者所关注的焦点之一。为 ...
ljrj12345 评论(0) 有44人浏览 2017-12-12 15:53

信息安全是网络发展的关键

  在以数据为核心资源的网络空间,一组代码可能导致信息系统乃至国家基础设施瘫痪,小小的键盘后面隐藏着巨大风险。面对汹涌而至的数据浪潮和 ...
ljrj12345 评论(0) 有31人浏览 2017-10-31 15:10

爬虫大集锦,喜欢爬虫的朋友有福啦

爬虫来啦   百度网盘爬虫:(牛人写的,喜欢的朋友可以看下) http://www.cnblogs.com/huangxie/p/5473273.html 玩过爬虫的人都知道,被服务器拒绝了怎么办?看些这篇博客:(爬取代理地址,牛逼哄哄的) http://www.cnblogs.com/huangxie/p/5464562.html 作为搜索,就知道玩LIKE,你就凹凸曼啦!快来看看: ...
zhang_ps 评论(0) 有456人浏览 2016-05-18 23:05

中文分词mmseg4j+solr 5.3.1配置

基础环境: solr 5.3.1 mmseg4j-solr-2.3.0.jar mmseg4j-core-1.10.0.jar CentOS release 6.2 (Final) java version "1.7.0_71" jar添加: 位置:solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib 配置: 在schema.xml中 ...
yiduwangkai 评论(0) 有2110人浏览 2016-01-10 14:32

Solr 5.x的搭建(Solr自带的Jetty Server)与mmseg4j中文分词

前言:        如果你对Solr怎么和Tomcat 集成以及如何使用mmseg4j和自定义的词库丰富完善中文分词,可以参照我的其它与Solr相关的博客。这篇将以简 ...
Josh_Persistence 评论(21) 有6468人浏览 2015-10-17 19:05

中文分词中的正向最大匹配与逆向最大匹配

        我们都知道,英文的分词由于单词间是以空格进行分隔的,所以分词要相对的容易些,而中文就不同了,中文中一个句子的分隔就是以字为单 ...
Josh_Persistence 评论(1) 有5596人浏览 2015-09-14 23:52

word v1.3 发布,Java 分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、 ...
yangshangchuan 评论(1) 有6176人浏览 2015-08-29 09:51

JAVA开源中文分词工具-IKAnalyzer下载及使用

关键字:中文分词、IKAnalyzer   最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。 关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。   下载解压之后主要使用和依赖以下文件: IKAnalyzer2012_u6.jar   — ...
superlxw1234 评论(0) 有3013人浏览 2015-07-22 08:57

JAVA中文切词

因项目需要对中文进行切词,故找同事要了段代码,现记录下来,以便日后使用 public  static String detailData(String text) throws IOException{   String returnStr = "";   //创建分词对象   Analyzer anal = new IKAnalyzer(true);   ...
lin358 评论(0) 有791人浏览 2015-05-12 10:22

中文分词算法 之 基于词典的全切分算法

  在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2 ...
yangshangchuan 评论(0) 有8536人浏览 2015-05-09 19:07

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics