`
gaojingsong
  • 浏览: 1155045 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

【自然语言处理介绍】

阅读更多

自然语言处理(natural language processing 简称NLP)

 

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

 

自然语言处理要解决的主要问题有: 

(1)垃圾邮件识别 

(2)中文输入法 

(3)机器翻译 

(4)自动问答、客服机器人 

这里简单罗列了一些NLP的常见领域:分词,词性标注,命名实体识别,句法分析,语义识别,垃圾邮件识别,拼写纠错,词义消歧,语音识别,音字转换,机器翻译,自动问答……

 

 

二、语料库知识  

语料库作为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。    

语料库划分:① 时间划分② 加工深度划分:标注语料库和非标注语料库③ 结构划分⑤ 语种划分⑥ 动态更新程度划分

语料库构建原则:①代表性  ②结构性   ③平衡性   ④规模性   ⑤元数据:元数据对       

语料标注的优缺点

①优点: 研究方便。可重用、功能多样性、分析清晰。

②缺点: 语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低

 

 

 

三、机器学习降维

主要特征选取、随机森林、主成分分析、线性降维

 

 

四、朴素贝叶斯原理  

-->训练文本预处理,构造分类器。

-->构造预测分类函数  

-->对测试数据预处理  

-->使用分类器分类    

 

五、LIBSVM -- A Library for Support Vector Machines

SVMs (Support Vector Machines) are a useful technique for data classification. Although

SVM is considered easier to use than Neural Networks, users not familiar with

it often get unsatisfactory results at first. Here we outline a “cookbook” approach

which usually gives reasonable results.

 

Note that this guide is not for SVM researchers nor do we guarantee you will

achieve the highest accuracy. Also, we do not intend to solve challenging or diffi-

cult problems. Our purpose is to give SVM novices a recipe for rapidly obtaining

acceptable results.

 

Although users do not need to understand the underlying theory behind SVM, we

briefly introduce the basics necessary for explaining our procedure. A classification

task usually involves separating data into training and testing sets. Each instance

in the training set contains one “target value” (i.e. the class labels) and several

“attributes” (i.e. the features or observed variables). The goal of SVM is to produce

a model (based on the training data) which predicts the target values of the test data

given only the test data attributes.

 

 

 

六、文本词频算法思想:

1 对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理。     

2对清洗后的单词进行去重和词频统计,通过Map统计词频,实体存储:单词-词频。(数组也可以,只是面对特别大的数据,数组存在越界问题)。排序:根据词频或者字母

3 提取核心词汇,大于5的和小于25次的数据,可以自己制定阈值。遍历list<实体>列表时候,通过获取实体的词频属性控制选取词汇表尺寸。        

 

 

原创不易,欢迎打赏,请认准正确地址,谨防假冒



 

 

 

       

0
0
分享到:
评论

相关推荐

    计算机自然语言处理

    计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言 单位(字、词、语句、篇章等等)进行转换、传输、存贮、分析等加工处理的 科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系...

    自然语言处理课件.ppt

    自然语言处理课件.ppt

    自然语言处理中文情感分类源代码

    自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感...

    自然语言处理NaturalLanguageProcessing(NLP).ppt

    自然语言处理概述 什么是自然语言处理 自然语言处理的典型应用 自然语言处理的基本任务 自然语言处理的基本策略和实现方法 自然语言处理的难点 自然语言处理所涉及的学科 基于规则的自然语言处理方法(理性方法,...

    自然语言处理综论 第2版_2018.03_784_14391789.pdf

    本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一...

    自然语言处理课件

    自然语言处理课件,入门学习资料必备,详细介绍了自然语言处理主要研究内容和算法

    Python自然语言处理-BERT实战

    给大家分享一套课程——Python自然语言处理-BERT实战,提供全部课程资料,包括PPT,数据,代码。 Python自然语言处理-BERT模型实战课程旨在帮助同学们快速掌握当下NLP领域最核心的算法模型BERT的原理构造与应用实例。...

    哈工大 智能技术与自然语言处理技术课程 NLP系列课程 自然语言处理大总结 脑图总结.pdf

    本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...

    自然语言处理分词大作业

    自然语言处理分词大作业

    Python 自然语言处理

    自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及所有用计算机对自然语言进行的操作。...

    python自然语言处理实战pdf_dode.zip

    python自然语言处理实战pdf和代码,欢迎对自然语言处理感兴趣的朋友下载

    MATLAB的自然语言处理工具

    MatlabNLP是在Matlab环境下进行自然语言处理的高效算法、数据结构和经过良好测试的函数的集合。我们正在不断加快底层算法和函数的速度。可以使用整个库,也可以只获取所需的函数和方法,复制到项目文件夹中。 ...

    自然语言处理数据集(初中和高中数学)

    自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集...

    python中文自然语言处理基础与实战

    用python语言来做一些NLP(自然语言处理)的工作,笔记分为11章,层层梯进,包含开发环境介绍、功能代码实现步骤、案例实战等。

    哈工大自然语言处理课件及实验

    哈工大自然语言处理课程的课件及实验资料,方便大家学习

    自然语言处理入门代码

    hanlp上相关代码文件面向生产环境的多语种自然语言处理工具包,基于 TensorFlow 2.x,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。目前,基于深度学习的...

    自然语言处理ppt自然语言处理模型描述

    自然语言处理模型描述,上课用的自然语言处理课件,不可多得的资源

    统计自然语言处理基础(中文版 高清带书签)

    统计自然语言处理基础(中文版 高清带书签) 《统计自然语言处理基础:国外计算机科学教材系列》是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。《统计自然...

    国科大自然语言处理考试真题.pdf

    国科大自然语言处理往年考试真题,欢迎下载复习借鉴。国科大自然语言处理往年考试真题,欢迎下载复习借鉴。国科大自然语言处理往年考试真题,欢迎下载复习借鉴。国科大自然语言处理往年考试真题,欢迎下载复习借鉴。...

Global site tag (gtag.js) - Google Analytics