[#0x002C] IR经典模型之向量模型 - #import ~ 青山代码 - ITeye博客

`

Aoyi

浏览: 202653 次
性别:
来自: 武汉

最近访客更多访客>>

GINmvp

chinaemerson

EraKrisZhang

诱死蝶

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

minroseven： [color=red][/color]个
[#0x0050] "Could not resolve placeholder"解决方案
JavaAiHaoZhezh： character-set-server=utf8 可用！！！ ...
[#0x004E] MySQL 5.5版本下my.ini内[mysqld]项中不能再写default-character-set=utf8
Jeremy__Pan：哎哟，不错哦。解决了我的问题，不过是我拿maven 来构建的， ...
[#0x0050] "Could not resolve placeholder"解决方案
di1984HIT：写的很好，真的很好。
[#0x004E] MySQL 5.5版本下my.ini内[mysqld]项中不能再写default-character-set=utf8
yousteely： [client]default-character-set=u ...
[#0x004E] MySQL 5.5版本下my.ini内[mysqld]项中不能再写default-character-set=utf8

[#0x002C] IR经典模型之向量模型

博客分类：

Information Retrieval

阅读更多

1. 向量模型同样将dj和qcc同级计算，采用的同级方式是扩展qcc到t维

2. 相似度计算

依旧有dj = {w1j, w2j, …, wtj}，但这里的wij不再是二元值，而是一个加权值；同样定义qcc = {w1, w2, ..., wt}，这里的wi也是一个加权值
sim(dj, qcc) = dj • qcc / (|dj| * |qcc|)， dj • qcc为向量点乘运算
一次检索的过程是根据qcc来和所有dj ∈ D(文档集合)，计算出一组sim值，然后依据sim值来排序D，返回前排部分文档(可自定义阈值，比如返回sim值大于0.5的或是D排序后的前30%文档)
|dj|² = ∑i (wij²)；|qcc|² = ∑i (wi²)，对于一次检索而言，|qcc|值对排序不会产生任何影响；dj • qcc = ∑i (wij * wi)
term freqency(词频)：表示词ki在文档dj中出现的频率，TFij = Nij / ∑t Ntj，Nij为词ki在文档dj中出现的次数，∑t Ntj为所有词在文档dj中出现的次数和，即dj包含的总词数。若词ki的TF值越高，则说明ki越能代表文档dj
inverse doucument frequency(逆向文档频率)：设|Di| = {d|d∈D且ki∈d}，|Di|值即表示文档集D中有这么多篇文档包含了词ki；IDFi = log(|D| / |Di|)，|D|为文档集中的文档个数。若IDFi值越大，说明D中包含ki的文档越少，从而ki用来区分D中不同文档的能力也就越大。
wij = TFij * IDFi
wi = (½ + ½ * TFij) * IDFi

0
顶

0
踩

分享到：

[#0x002D] variable的name和mapped-name | [#0x002B] IR经典模型之布尔模型

2009-11-01 21:12
浏览 1217
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

[#0x003B] UML类图之关联、聚合、组合、依赖: NULL 博文链接：https://aoyi.iteye.com/blog/659179

TaiXuan91#TXMathBase#0X1C_域1: 域的定义如果交换环还额外满足以下条件，则称为域：乘法单位元和加法单位元不相等（1不等于0）。由于存在乘法逆元，就意味着可以进行“除法”，所以有的书上也把域称作

TaiXuan91#TXLuaLesson#0X2B循环for1: 0X2B循环for前置知识0X29再谈循环正文Lua除了while和repeat语句还提供了一种for循环语句.while和repeat语句循环终止条件可以是任

TartaricAcid#TXLuaLesson#0X0E中学算术1: 0X0E中学算术前置知识0X0D数学库函数正文有了三角函数、反三角函数、对数函数、求幂运算，中学阶段涉及的所有具体的数值计算基本就都可以求解。求此表达式的值：第

TaiXuan91#TXLuaLesson#0X00目录1: 目录图例Stage1 入门Stage2 基础Stage3 字符串处理Stage4 理解函数Stage5 表结构Stage6 流程控制Stage7 模块Stage

TaiXuan91#TXLuaLesson#0X36度量时间1: 1. 度量脚本执行时间 2. 记录时间 3. 计算时间间隔

satan1a#TheRoadOfSO#0x4_安全运营相关文章1: 安全运营相关文章本篇整理一些安全运营相关的高质量文章[2] 体系化的WAF安全运营实践, 安全研究与实践,

[#0x003A] join: NULL 博文链接：https://aoyi.iteye.com/blog/631929

[#0x0042] Spring AOP学习（二）：动态代理: NULL 博文链接：https://aoyi.iteye.com/blog/723571

STM8S207中断系统##pragma 0x原因.rar_STM8S207中断系统: STM8S207中断系统##pragma 0x原因.pdf,介绍中断的

纯c 详细的五子棋代码: #define enter 0x1c0d #define A 0x1e61 #define S 0x1f73 #define D 0x2064 #define W 0x1177 #define space 0x3920 #define Y 0x1579 #define n 0x316e int gamespeed=5000; int i,j,key; struct Sor { int x; ...

__lll_mutex_lock_wait的错误原因: #7 0x00002b9405e3c6d0 in __libc_message () from /lib64/libc.so.6 #8 0x00002b9405e4177e in malloc_printerr () from /lib64/libc.so.6 #9 0x00002b9405e42dfc in free () from /lib64/libc.so.6 #10 0x...

MCU云快充协议C语言实现库软件源代码.zip: MCU云快充协议C语言实现库软件源代码： #define FRAME_TYPE_0X01 0x01//充电桩登录认证 #define FRAME_TYPE_0X02 0x02 #define FRAME_TYPE_0X03 0x03//充电桩心跳包 #define FRAME_TYPE_0X04 0x04 #define FRAME_...

c语言源代码，文本编辑器: #define ENTER 0x1c0d #define DEL 0x5300 #define BACKSPACE 0x0e08 /* 定义F1 到F12 */ #define F1 0x3b00 #define F2 0x3c00 #define F3 0x3d00 #define F4 0x3e00 /* 定义控制键 */ #define...

Windows 10系统连接共享打印机报错0x00000709、0x0000007c、0x0000011b.zip: 解决：Windows 10系统连接共享打印机报错0x00000709、0x0000007c、0x0000011b

mvb从站接收源代码需求：mvb板卡从站配置地址0x002，源端口0x500，端口大小32字节 Makefile编译方式: 需求：mvb板卡从站配置地址0x002，源端口0x500，端口大小32字节。源代码实现过程： TCN-列车通信网络概述 mvb板卡设置需求 1、板卡初始化 2、过程数据初始化 3、传输存储与新鲜度初始化 4、源端口初始化 PD_SOURCE_...

AI 0x0.zip chatgpt 多模型问答交流: AI 0x0.zip chatgpt 多模型问答交流

C语言五子棋源代码: #define enter 0x1c0d #define A 0x1e61 #define S 0x1f73 #define D 0x2064 #define W 0x1177 #define space 0x3920 #define Y 0x1579 #define n 0x316e int gamespeed=5000; int i,j,key; struct Sor { int x; ...

NotFoundException: org.apache.commons.dbcp.BasicDataSource异常的解决方法: Struts的java.lang.ClassNotFoundException: org.apache.commons.dbcp.BasicDataSource异常的解决方法

解决0x00000000C: qq不能使用，出现0x0000000C，网页不能打开

Global site tag (gtag.js) - Google Analytics