`
eric_weitm
  • 浏览: 235047 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nlp示例代码

 
阅读更多
import logging
from logging import NullHandler

log = logging.getLogger(__name__)
log.addHandler(NullHandler())

from corpussrc import DoubanCorpus
from gensim import corpora, models, similarities
from cleaner import StopWordFilter

def test_lsi_query(dictionary, lsi, index):
    teststr = u'哈哈有个评论太可爱了,你们知道吴京有多努力吗?不过打一星是看新闻气的。'
filter = StopWordFilter()
    vec_bow = dictionary.doc2bow(filter.transform(jieba.cut(teststr)))
    vec_lsi = lsi[vec_bow]
    sims = index[vec_lsi]
    sims = sorted(enumerate(sims), key=lambda item: -item[1])

    log.warn(sims)

def test_deep_learning():
    # size:特征向量的维度 window:上下文相关环境的长度  min_count:最小词频率 workers:进程数
model = models.Word2Vec(DoubanCorpus('tbDoubanReview'), size=100, window=5, min_count=5, workers=4)
    model.wv[u'吴京']
    model.wv.most_similar(positive=['woman', 'king'], negative=['man'])

# 语料-》词典->bow->model->similar
# 基本思路:向量化、比较向量
def testapi():
    dictionary = corpora.Dictionary(DoubanCorpus('tbDoubanReview'))
    log.warn(dictionary.token2id)

    docs = DoubanCorpus('tbDoubanReview')
    # bow格式[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1)], [(11, 1), (12, 1)]
    # 每个元组的含义是 字典中的id,本文档含有的次数, 只存储本文档含有的词汇
corpus = []
    for docwords in docs:
        log.warn(docwords)
        corpus.append(dictionary.doc2bow(docwords))

    log.warn(corpus)  # 1、bow

tfidf = models.TfidfModel(corpus)  # 2、bow ->tfidf
    # [(4, 0.447213595499958), (5, 0.447213595499958), (6, 0.447213595499958), (7, 0.447213595499958), (8, 0.447213595499958)]
    # 体现每个词的重要性,数值越大,越重要
corpus_tfidf = tfidf[corpus]
    for doc in corpus_tfidf:
        log.warn(doc)

    # 3、lsi 模型, 使用奇异矩阵来压缩数据(SVD),是去掉噪声的过程(去掉同义词、反义词的干扰)
lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=10)
    corpus_lsi = lsi[corpus_tfidf]
    lsi.print_topics(10)

    lda = models.LdaModel(corpus, id2word=dictionary, num_topics=100) # 输入是bow格式
lda.print_topics(20)

    # 先建立向量model的索引
index = similarities.MatrixSimilarity(lsi[corpus_tfidf])
    test_lsi_query(dictionary, lsi, index)


if __name__ == '__main__':
    testapi()
分享到:
评论

相关推荐

    大语言模型原理解析与示例代码

    知识领域:自然语言处理、深度学习、人工智能 技术关键词:大语言模型、Transformer、文本生成、模型架构 内容关键词:技术原理、模型结构、训练过程、示例代码 用途:为想要了解大语言模型原理及应用的学习者和...

    NLP(自然语言处理)命名实体识别代码详细步骤示例

    然后,我们定义了一个待处理的文本,其中包含了一些命名实体。接下来,我们使用加载的模型对文本进行NER,得到一个Doc对象。 在代码的下一部分,我们使用doc对象中的token属性遍历每个单词,并打印出其文本、词形...

    Python 自然语言处理笔记.md

    对自然语言处理感兴趣,想了解NLP基础知识及应用的技术爱好者。文中提供了示例代码,也适合想学习NLP编程的初学者。 能学到什么: 通过阅读可以学习到自然语言处理的基本概念、主要技术思想、典型任务和应用场景。可以...

    自然语言处理(NLP)、Transformer和YOLO等

    这份综合性资源将引导您了解如何将自然语言处理(NLP)、Transformer和YOLO等技术在实际应用中结合使用。通过综合应用,您可以将文本分析和目标检测等任务结合起来,实现更全面的应用场景。资源中提供了技术概述、...

    nlp-recipes-ja:日语自然语言处理的示例代码

    该存储库包含用于日语自然语言处理的示例代码。 它受到的极大启发。 内容 以下是存储库中涵盖的常用NLP方案的摘要。 在一个或多个脚本或Jupyter笔记本示例中演示了每种情况,这些脚本或示例使用了模型和存储库实用...

    自然语言处理的最佳实践与示例

    针对常见NLP任务的示例代码和数据集 这个资源库对于NLP领域的学者、工程师和研究人员来说,是一个非常有价值的参考工具。通过学习这个资源库中的内容,您可以更好地了解NLP领域的新发展和最佳实践,从而为构建高质量...

    Python NLP笔记.md

    本文首先介绍了自然语言处理(NLP)的基本概念,然后重点讲解了NLP的核心技术,包括文本预处理、词嵌入、文本分类、命名实体识别等,并给出了使用Python实现这些技术的示例代码。最后,文章讨论了NLP的典型应用场景,如机器...

    realworldnlp:“真实世界自然语言处理”的示例代码

    现实世界中的自然语言处理该存储库包含《现实世界自然语言处理》一书的示例代码。 必须使用AllenNLP(1.0.0或更高版本)才能在此存储库中运行示例代码。 此存储库中包含的示例: 情感分析(LSTM)[ ] [ ] 情感分析...

    自然语言处理(NLP)讲义.md

    1.1 什么是自然语言处理? 1.2 NLP的重要性与应用领域 基础技术 2.1 分词与词性标注 2.2 语言模型与文本生成 2.3 词嵌入与向量表示 常见NLP任务 3.1 文本分类与情感分析 3.2 命名实体识别 3.3 机器翻译 3.4 问答系统...

    NLP-with-Python-for-Beginners:NICF的示例代码–适用于初学者的Python自然语言处理(NLP)

    NICF –适用于初学者的使用Python的自然语言处理(NLP)按这些是用于课程的练习文件。 课程大纲可以在下面找到 主题1 NLP和深度学习概述NLP概述NLP的应用NLP的深度学习方法递归神经网络(RNN)的基础为NLP安装Python...

    Python LoRA 大模型轻量级微调笔记.md

    本文首先介绍了LoRA大模型轻量级微调的思想,然后给出了使用Python中的transformers库实现文本分类、语义理解等自然语言处理任务的示例代码,最后讨论了LoRA大模型轻量级微调在NLP领域的典型应用,如文本分类、语义理解...

    语音采集、语音识别、自然语言处理 完整示例

    从 语音采集、语音识别 转换、机器学习,自然语言处理 完整示例

    自然语言解释示例框架.rar

    但是现有的自然语言处理/理解技术并不能满足企业的需求 - 它们太狭隘(聊天机器人),太浅薄和通用(基于云的自然语言处理解决方案),或者开发,部署和维护成本太高。 填补当前自然语言处理系统的空白 作为我们的...

    机器学习实战示例代码.zip

    互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域...

    Python-Python数据挖掘NLP实战示例

    使用这些NLP,文本挖掘和机器学习代码示例和工具来解决现实世界的文本数据问题。

    MATLAB代码示例,演示了如何使用字符串数组进行文本处理和自然语言处理(附详细步骤).txt

    这个代码的意义在于展示了MATLAB在文本处理和自然语言处理方面的应用。通过使用NLTK库中的分词器和字符串匹配算法,我们可以方便地对文本进行处理和分析,例如文本分类、情感分析、实体识别等任务。此外,这个代码还...

    Swift字符串指南示例代码:Flight School的Swift String指南Xcode操场示例代码

    Swift字符串指南示例代码 该存储库包含《使用的示例代码。 第2章 字符串文字 您可以使用字符串文字在Swift中构造字符串值。 这个游乐场提供了从常规单行到原始多行的各种示例。 let multilineRawString = #""" \-...

    自然语言处理、Transformer和YOLO技术的实际应用举例.docx

    当涉及到自然语言处理(NLP)、Transformer和YOLO技术的实际应用时,有很多不同的示例。以下是一些典型的应用: 自然语言处理(NLP)的应用: 1.机器翻译:NLP技术用于自动将一种语言翻译成另一种语言,例如Google...

    自然语言处理--人工智能--ROS、Stage、TLD算法--机器人编程示例

    代码亲测有效。针对于人工智能初学者示例,实现了地面移动、机器人仿真平台Stage,并在实际环境中开发试验。可以学习到机器人2.5D仿真平台Stage、TLD算法封装package,了解ROS的基本概念及用法,并有开发机器人的...

Global site tag (gtag.js) - Google Analytics