`
sabolasi
  • 浏览: 910146 次
文章分类
社区版块
存档分类
最新评论

Chindle内容设计【2】

 
阅读更多
简单的词频统计并不能很好地用于知识发现,例如下面的,高频词汇基本都是垃圾信息。怎么搞?求专业人士指导 O(∩_∩)O





--update--


感谢超哥给的tips,实用stopwords(停用词)果然很给力,能把大部分无意义的词汇过滤掉。


停用词:在基于词的检索系统中,停用词是指出现频率太高、没有太大检索意义的词,如“的、是、太、of、the、什么、可以”等;在基于支持向量机的自动分类中,停用词指没有实意的虚词和类别色彩不强的中性词。 参考文献: http://www.sciencetimes.com.cn/upload/blog/file/2008/10/20081024135512290497.pdf


--update--


感谢镇锋的建议,TF/IDF应该是一个不错的解决思路。TF-IDF的关键是引入多份文件(多个微博用户/多条微博)来对关键词进行统计,然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。


很多不同的数学公式可以用来计算TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语「母牛」出现了3次,那麽「母牛」一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过「母牛」一词,然後除以文件集里包含的文件总数。所以,如果「母牛」一词在1,000份文件出现过,而文件总数是 10,000,000份的话,其文件频率就是 0.0001 (1000/10,000,000)。最後,TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说,「母牛」一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。


参考:http://lzj0470.iteye.com/blog/306053


-update-

任务的本质是你用几个词,去描述这个人。
目标函数是:
1.尽可能多的覆盖这个人的属性
2.重要属性大字,次要属性小资
约束条件是:
有限的描述词

其中“重要”的定义,是问题的关键。
可以假设认为:
1. 词性是名词、术语、形容词通常比较重要。比如:机器学习、统计、足球、Big Table;介词可能不重要,比如:通过、因为等。
2. 有限的个数,如果词之间多一些 独立、正交、不相关 等 关系,则覆盖较全。假设限定M个关键词,我们可以先找top 2M 个关键词,然后去掉
其中有一定语义关系的,比如“包含关系”、“近似关系”等。
3. td-idf都只根据了词出现的个数统计重要性。词出现的位置 有时更加重要。比如【又现“艳照门”】
4. 通过 词 出现的 上下文 判定词的 权重。 比如:我转发的微博中,“京东”出现了一次,但是在改微博被其他人转发的时候,也都提到了
”京东“,那么京东的权重应该大些。


这些都是 应用场景的 分析, 算法实现 可以调研下。





附,停用词使用前和使用后的对比:


什么 => 6
时代 => 5
这个 => 4
没有 => 4
歪脖 => 3
可以 => 3
哈哈哈 => 3
自己 => 3
每天 => 2
绝望 => 2
qq => 2
优化 => 2
今天 => 2
欢迎 => 2
因为 => 2
真是 => 2
要是 => 2
别人 => 2
一起 => 2
点点 => 2
积极 => 2
搞起 => 2
疯狂 => 2
容易 => 2
应用 => 2
北京 => 2
强大 => 2
新浪 => 2
关系 => 2
=> 2
无比 => 2
成功 => 2
不要 => 1
你们 => 1
知道 => 1
气馁 => 1
困难 => 1
谅解 => 1
承受 => 1
好事 => 1
救赎 => 1
唯一 => 1
任何 => 1
答辩 => 1
面对 => 1
所有 => 1
让人 => 1
心平气和 => 1
依靠 => 1
任何人 => 1
悲伤 => 1
痛苦 => 1
并不是 => 1
一件 => 1
真正 => 1
得到 => 1
快乐 => 1
妙手偶得 => 1
刚刚 => 1
完成 => 1
470 => 1
惊喜 => 1
谦卑 => 1
这样 => 1
带给 => 1
中期 => 1
快速 => 1
褪色 => 1
学习 => 1
加入 => 1
两点 => 1
国家 => 1
探雷 => 1
濡以 => 1
赞美 => 1
全都 => 1
出来 => 1
上传 => 1
0.5秒 => 1
试用 => 1
多谢 => 1
支持 => 1
66 => 1
大家 => 1
第一个 => 1
以内 => 1
发送 => 1
给出 => 1
提示 => 1
真是的 => 1
围观 => 1
就是 => 1
俄罗斯 => 1
均衡 => 1
消解 => 1
调度 => 1
有点 => 1
原则化 => 1
到底 => 1
绝对 => 1
毁灭 => 1
大设计 => 1
领悟 => 1
落定 => 1
江南岸 => 1
二月 => 1
之一 => 1
终将 => 1
亿万年 => 1
追求 => 1
永恒 => 1
一场 => 1
喝彩 => 1
转化 => 1
系列 => 1
忧愁 => 1
沉思 => 1
果然 => 1
值得 => 1
一个 => 1
坚定 => 1
毕业 => 1
送审 => 1
成立 => 1
不少 => 1
悔恨 => 1
试试 => 1
太帅 => 1
关注 => 1
一下 => 1
不是 => 1
没法 => 1
2010 => 1
纠正 => 1
浮沉 => 1
克服 => 1
拖延 => 1
主动 => 1
好玩 => 1
真人 => 1
免费 => 1
2011 => 1
暑期 => 1
精彩 => 1
10000张 => 1
第二季 => 1
可贵 => 1
懂得 => 1
珍惜 => 1
活动 => 1
大片 => 1
邀请 => 1
起床 => 1
戴文渊 => 1
看透 => 1
细水长流 => 1
分享 => 1
行动 => 1
每人 => 1
两张 => 1
有限 => 1
赶快 => 1
评论 => 1
转发 => 1
交互 => 1
入门 => 1
居家 => 1
必备 => 1
东西 => 1
早点 => 1
争取 => 1
纳斯达克 => 1
美股 => 1
投资 => 1
几本 => 1
酱紫 => 1
崔浩波 => 1
中午 => 1
1点10分 => 1
睡到 => 1
2点30分 => 1
空白 => 1
国内 => 1
存在 => 1
价值 => 1
一样 => 1
填补 => 1
过去 => 1
五六年 => 1
睡觉 => 1
晚安 => 1
各位 => 1
胡说 => 1
寂寞 => 1
细分 => 1
午睡 => 1
包括 => 1
按摩 => 1
小憩 => 1
四月 => 1
一日 => 1
以前 => 1
上课 => 1
现在 => 1
一晃 => 1
怀念 => 1
地方 => 1
59 => 1
永远 => 1
记忆 => 1
好美 => 1
刘瑜 => 1





用停用词处理后好了不少,但还是有些词比较蛋疼:


时代 => 5
歪脖 => 3
哈哈哈 => 3
绝望 => 2
qq => 2
优化 => 2
别人 => 2
点点 => 2
搞起 => 2
疯狂 => 2
北京 => 2
强大 => 2
新浪 => 2
关系 => 2
=> 2
无比 => 2
成功 => 2
气馁 => 1
困难 => 1
谅解 => 1
承受 => 1
好事 => 1
救赎 => 1
唯一 => 1
答辩 => 1
面对 => 1
让人 => 1
心平气和 => 1
任何人 => 1
悲伤 => 1
痛苦 => 1
一件 => 1
快乐 => 1
妙手偶得 => 1
刚刚 => 1
470 => 1
惊喜 => 1
谦卑 => 1
带给 => 1
中期 => 1
快速 => 1
褪色 => 1
学习 => 1
两点 => 1
国家 => 1
探雷 => 1
濡以 => 1
赞美 => 1
全都 => 1
上传 => 1
0.5秒 => 1
试用 => 1
多谢 => 1
支持 => 1
66 => 1
第一个 => 1
以内 => 1
发送 => 1
给出 => 1
提示 => 1
真是的 => 1
围观 => 1
俄罗斯 => 1
均衡 => 1
消解 => 1
调度 => 1
原则化 => 1
到底 => 1
毁灭 => 1
大设计 => 1
领悟 => 1
落定 => 1
江南岸 => 1
二月 => 1
终将 => 1
亿万年 => 1
追求 => 1
永恒 => 1
一场 => 1
喝彩 => 1
转化 => 1
系列 => 1
忧愁 => 1
沉思 => 1
值得 => 1
一个 => 1
坚定 => 1
毕业 => 1
送审 => 1
成立 => 1
不少 => 1
悔恨 => 1
试试 => 1
太帅 => 1
关注 => 1
没法 => 1
2010 => 1
纠正 => 1
浮沉 => 1
克服 => 1
拖延 => 1
主动 => 1
好玩 => 1
真人 => 1
免费 => 1
2011 => 1
暑期 => 1
精彩 => 1
10000张 => 1
第二季 => 1
可贵 => 1
懂得 => 1
珍惜 => 1
活动 => 1
大片 => 1
邀请 => 1
起床 => 1
戴文渊 => 1
看透 => 1
细水长流 => 1
分享 => 1
每人 => 1
两张 => 1
有限 => 1
赶快 => 1
评论 => 1
转发 => 1
交互 => 1
入门 => 1
居家 => 1
必备 => 1
东西 => 1
早点 => 1
纳斯达克 => 1
美股 => 1
投资 => 1
几本 => 1
酱紫 => 1
崔浩波 => 1
中午 => 1
1点10分 => 1
睡到 => 1
2点30分 => 1
空白 => 1
国内 => 1
价值 => 1
填补 => 1
五六年 => 1
睡觉 => 1
晚安 => 1
胡说 => 1
寂寞 => 1
细分 => 1
午睡 => 1
包括 => 1
按摩 => 1
小憩 => 1
四月 => 1
一日 => 1
上课 => 1
一晃 => 1
怀念 => 1
地方 => 1
59 => 1
永远 => 1
记忆 => 1
好美 => 1
刘瑜 => 1





较旧一篇:Chindle阅读(76)| 评论(23)| 分享(1)评论| 喜欢




Raywill 2011-10-13 00:39
@彭泽映 @熊皓


徐超 2011-10-13 00:39
stopwords 回复


Raywill 2011-10-13 00:41
回复徐超:分词是没有问题的,用的是sina的api,质量还可以。他们的分词给出了词性。


徐超 2011-10-13 00:42
回复Raywill:你要干什么? 回复


Raywill 2011-10-13 00:44
回复徐超:哈哈,我懂了。多谢多谢~ 停用词是比较给力。什么 => 6
这个 => 4
没有 => 4
可以 => 3
哈哈哈 => 3
自己 => 3
每天 => 2


这些都被干掉了。


徐超 2011-10-13 00:45
回复Raywill:词频统不能用于知识发现 => unsupervised learning 回复


Raywill 2011-10-13 00:47
回复徐超:online处理,太高级了跑不动啊。随便搞着玩,有个意思就行了。


徐超 2011-10-13 00:48
回复Raywill: unsupervised learning =>with model parameters 回复


Raywill 2011-10-13 00:48
回复徐超:求中文详解


徐超 2011-10-13 00:50
回复Raywill:google 回复


杨镇锋 2011-10-13 05:36
tf, idf? 回复


陆雪梅 2011-10-13 08:14
呃,肿么感觉你都已经搞起我们专业的东东来了,跟我们当初上的《信息组织与检索》挺像的嘛,哈哈 回复


常佳 2011-10-13 09:21
支持,我也是上次玩分词的时候知道了停用词这个东西。另外,过于过滤蛋疼词有啥新解了没?从词性角度可以吗?是不是名词更能代表个人的标签? 回复


Raywill 2011-10-13 09:33
回复常佳:清华的那个做得不错。基本都是名词。但是,名词中很多没有感情的词汇我还不知道如何过滤掉。Q聊。


Raywill 2011-10-13 09:33
回复陆雪梅:是嘛,求指导。


钟华 2011-10-13 09:37
itf不能解决问题?或者搞个正反集比较? 回复


Raywill 2011-10-13 09:42
回复钟华:ITF好像可以呢,刚才学习了下。我的理解是:TF-IDF的关键是引入多份文件(多个微博用户/多条微博)来对关键词进行统计,然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。不知道对不对?


钟华 2011-10-13 09:47
回复Raywill: 对的。 回复


朱亚东 2011-10-13 13:08
stopword list的过滤,是必须的;另外如果针对围脖的话,IDF是没有意义的 回复


Raywill 2011-10-13 13:25
回复朱亚东:有何好建议?


朱亚东 2011-10-13 17:01
回复Raywill:关键我不知道你想干嘛啊。。 回复


Raywill 2011-10-13 18:00
回复朱亚东:做一个跟”人人关键词“,”微博关键词“类似的应用。清华NLP实验室做了一个。你可以看看他们的效果。


熊皓 2011-10-13 19:28
关键词抽取,相关文献很多,我没研究这个,我说几个如果我去做的简单思路:
1.词性标注,去除一些ADJ,ADV之类意义不大的词
2.Topic model,用LDA跑一遍,每个topic取概率高的几个词
3.翻译模型,和检索一样,一篇文章对应若干个key words,可以建立翻译模型的。


前面两个比较容易实现
刘志远应该用了topic加上一些语义知识 回复
分享到:
评论

相关推荐

    infrared-remote-candroid studiodemo

    android studio下载

    【新质生产力】新质生产力赋能智能制造数字化解决方案.pptx

    【新质生产力】新质生产力赋能智能制造数字化解决方案.pptx

    基于matlab实现的用于应用布格重力异常数据反演地下异常密度体.rar

    基于matlab实现的用于应用布格重力异常数据反演地下异常密度体.rar

    node-v8.10.0-linux-x64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    基于Yolov5目标检测和deepsort目标跟踪无人机跟踪.zip

    无人机最强算法源码,易于部署和学习交流使用

    数据库课程设计实战.zip

    数据库课程设计后端 使用Springboot + Mybatis + Redis + Maven 数据库课程设计实战.zip,使用到了所有的相关SQL 的操作,如增删改查等,让你可以在一个项目里面,锻炼到所有的数据库相关的知识。项目亲测可以运行,里面含有运行相关的文档,不会的可以丝我请求帮助。 数据库课程设计后端 使用Springboot + Mybatis + Redis + Maven 具体的表和相关的数据如下: 用户(电话号码,密码,身份证号,邮箱,真实姓名,用户类型,性别,地址) 乘客(用户电话号码,乘客身份证号,乘客真实姓名,乘客电话号码,乘客类型,地址) 列车信息(列车编号,车次,列车类型,列车车厢数,列车始发站,列车终点站,列车开车时间,列车到达时间,列车到达日期,列车运行时间,列车状态) 列车座位信息(列车编号,车厢号,座位类型,座位数) 列车经停信息(列车编号,车次,车站编号,车站名,到达时间,总运行时间,开车时间) 订单信息(订单编号,用户电话号码,乘客身份证号码,列车编号,出发站编号,到达站编号,车厢号,座位编号,订单创建时间,订单状态,开车时间)

    咨询的分析方法gl.ppt

    咨询的分析方法gl.ppt

    node-v10.14.0-linux-ppc64le.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    2019年电赛无人机题目(B题)OpenMV相关代码

    These're the OpenMV codes written by microPython in 2019 NUEDC. 2019年电赛无人机题目(B题)OpenMV相关代码(原创).zip

    无人机降落TRT版本.zip

    无人机最强算法源码,易于部署和学习交流使用

    熊出没.zip

    熊出没.zip

    基于SpringBoot和Vue的家教信息平台设计与实现.zip

    基于SpringBoot和Vue的家教信息平台设计与实现.zip 有完整的部署指导文档,源码也是完整的,可以直接运行,里面包含了所有的相关步骤。 本文旨在设计和实现一套基于Java技术的家教信息系统,采用Spring Boot框架构建后端服务,MySQL数据库存储数据,Vue.js作为前端框架实现用户界面。该系统旨在解决家教信息管理的问题,包括家教师资信息管理、用户信息管理以及家教入驻等功能。通过综合运用Java、Spring Boot、MySQL和Vue等技术,实现了系统的高效运行和良好的用户体验。系统提供了用户注册、登录、信息查看和编辑等功能,同时支持家教的发布和查看,用户信息的管理以及家教审核的后台管理。家长可以方便地寻找合适的家教老师,家教老师也能够更便捷地管理自己的信息和相关资料。通过本设计,展示了Java技术在现代化家教信息系统中的应用,为家教行业的信息化管理提供了一种有效的解决方案。该系统的设计与实现将为家长、家教老师和用户提供便利,促进家教行业的发展与进步。 关键词:SpringBoot; MySQL; 系统设计; 家教

    利用CNN进行无人售货机的商品识别.zip

    无人机最强算法源码,易于部署和学习交流使用

    node-v11.10.1-linux-armv6l.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    (R语言)-6-箱线图的绘制

    (R语言)-6-箱线图的绘制

    麦肯锡-xx联通固定市场举措gl.ppt

    麦肯锡-xx联通固定市场举措gl.ppt

    在PyCharm中配置Python环境步骤

    附件是在PyCharm中配置Python环境步骤,文件绿色安全,请大家放心下载,仅供交流学习使用,无任何商业目的!

    【北京工业大学】集成电路分析与设计实验报告

    本课程实验分为数字集成电路设计实验与全定制设计实验两部分。 实验1—4为基于Cadence的数字集成电路设计实验部分,主要内容为通过一个简单数字低通滤波器的设计、综合、仿真,让学生熟悉数字集成电路前段实际设计流程,以培养学生实际设计集成电路的能力。具体为:实验1Matlab实现数字低通滤波器算法设计。 实验2Linux环境下基本操作。 实验3RTLCompiler对数字低通滤波器电路的综合。 实验4NC对数字低通滤波器电路的仿真。 其中,实验1主要目的是为了展示算法分析的方法和重要性。使用Matlab实现数字滤波器的算法设计和HDL代码生成。由于Matlab工具可以在Windows环境下工作,而其他集成电路EDA工具均需要在linux下工作,故建议本实验在课堂演示和讲述,学生课下练习。实验2的主要目的是学习linux下的基本操作。包括目录管理、文件管理、文件编辑以及文件压缩等在使用集成电路EDA工具时所需要的操作。本实验是实验3和实验4的基础,建议在实验室完成。

    基于Transformer模型构建的聊天机器人python源码+运行说明.zip

    一、简介 基于Transformer模型构建的聊天机器人,可实现日常聊天。 二、系统说明 2.1 功能介绍 使用者输入文本后,系统可根据文本做出相应的回答。 2.2 数据介绍 * 百度中文问答 WebQA数据集 * 青云数据集 * 豆瓣数据集 * chatterbot数据集 由于数据集过大,因此不会上传,如有需要可以在issue中提出。 2.3. 模型介绍(v1.0版本) 基于Transformer模型,使用Python中的keras-transformer包。 训练的参数文件没有上传,如有需要可在issue中提出。 三、注意事项 * keras-transformer包需要自行安装:`pip install keras-transformer`。 * 如果需要实际运行,参数文件放在`ModelTrainedParameters`文件下;`ListData`文件下包含了已经处理好的字典等数据,不需要修改,直接运行Main.py即可。 * 如果需要自行训练,将数据集文件放在`DataSet`文件下。 * `HyperParameters.py`文件中包含了系统所需

Global site tag (gtag.js) - Google Analytics