1. 向量模型同样将dj和qcc同级计算,采用的同级方式是扩展qcc到t维
2. 相似度计算
- 依旧有dj = {w1j, w2j, …, wtj},但这里的wij不再是二元值,而是一个加权值;同样定义qcc = {w1, w2, ..., wt},这里的wi也是一个加权值
- sim(dj, qcc) = dj • qcc / (|dj| * |qcc|), dj • qcc为向量点乘运算
- 一次检索的过程是根据qcc来和所有dj ∈ D(文档集合),计算出一组sim值,然后依据sim值来排序D,返回前排部分文档(可自定义阈值,比如返回sim值大于0.5的或是D排序后的前30%文档)
- |dj|² = ∑i (wij²);|qcc|² = ∑i (wi²),对于一次检索而言,|qcc|值对排序不会产生任何影响;dj • qcc = ∑i (wij * wi)
- term freqency(词频):表示词ki在文档dj中出现的频率,TFij = Nij / ∑t Ntj,Nij为词ki在文档dj中出现的次数,∑t Ntj为所有词在文档dj中出现的次数和,即dj包含的总词数。若词ki的TF值越高,则说明ki越能代表文档dj
- inverse doucument frequency(逆向文档频率):设|Di| = {d|d∈D且ki∈d},|Di|值即表示文档集D中有这么多篇文档包含了词ki;IDFi = log(|D| / |Di|),|D|为文档集中的文档个数。若IDFi值越大,说明D中包含ki的文档越少,从而ki用来区分D中不同文档的能力也就越大。
- wij = TFij * IDFi
- wi = (½ + ½ * TFij) * IDFi
分享到:
相关推荐
NULL 博文链接:https://aoyi.iteye.com/blog/659179
域的定义如果交换环还额外满足以下条件,则称为域:乘法单位元和加法单位元不相等(1不等于0)。由于存在乘法逆元,就意味着可以进行“除法”,所以有的书上也把域称作
0X2B循环for前置知识0X29再谈循环正文Lua除了while和repeat语句还提供了一种for循环语句.while和repeat语句循环终止条件可以是任
0X0E中学算术前置知识0X0D数学库函数正文有了三角函数、反三角函数、对数函数、求幂运算,中学阶段涉及的所有具体的数值计算基本就都可以求解。求此表达式的值:第
目录图例Stage1 入门Stage2 基础Stage3 字符串处理Stage4 理解函数Stage5 表结构Stage6 流程控制Stage7 模块Stage
1. 度量脚本执行时间 2. 记录时间 3. 计算时间间隔
安全运营相关文章本篇整理一些安全运营相关的高质量文章[2] 体系化的WAF安全运营实践, 安全研究与实践,
NULL 博文链接:https://aoyi.iteye.com/blog/631929
NULL 博文链接:https://aoyi.iteye.com/blog/723571
STM8S207中断系统##pragma 0x原因.pdf,介绍中断的
#define enter 0x1c0d #define A 0x1e61 #define S 0x1f73 #define D 0x2064 #define W 0x1177 #define space 0x3920 #define Y 0x1579 #define n 0x316e int gamespeed=5000; int i,j,key; struct Sor { int x; ...
#7 0x00002b9405e3c6d0 in __libc_message () from /lib64/libc.so.6 #8 0x00002b9405e4177e in malloc_printerr () from /lib64/libc.so.6 #9 0x00002b9405e42dfc in free () from /lib64/libc.so.6 #10 0x...
MCU云快充协议C语言实现库软件源代码: #define FRAME_TYPE_0X01 0x01//充电桩登录认证 #define FRAME_TYPE_0X02 0x02 #define FRAME_TYPE_0X03 0x03//充电桩心跳包 #define FRAME_TYPE_0X04 0x04 #define FRAME_...
#define ENTER 0x1c0d #define DEL 0x5300 #define BACKSPACE 0x0e08 /* 定义F1 到F12 */ #define F1 0x3b00 #define F2 0x3c00 #define F3 0x3d00 #define F4 0x3e00 /* 定义控制键 */ #define...
解决:Windows 10系统连接共享打印机报错0x00000709、0x0000007c、0x0000011b
需求:mvb板卡从站配置地址0x002,源端口0x500,端口大小32字节。 源代码实现过程: TCN-列车通信网络概述 mvb板卡设置需求 1、板卡初始化 2、过程数据初始化 3、传输存储与新鲜度初始化 4、源端口初始化 PD_SOURCE_...
AI 0x0.zip chatgpt 多模型 问答交流
#define enter 0x1c0d #define A 0x1e61 #define S 0x1f73 #define D 0x2064 #define W 0x1177 #define space 0x3920 #define Y 0x1579 #define n 0x316e int gamespeed=5000; int i,j,key; struct Sor { int x; ...
Struts的java.lang.ClassNotFoundException: org.apache.commons.dbcp.BasicDataSource异常的解决方法
qq不能使用,出现0x0000000C,网页不能打开