Mahout之文本向量化

博客分类：

mahout
DataMining

背景：

进行文本挖掘的时候，无论是聚类还是相似计算首先需要向量化。

思路：

对于某一文本计算完其tf(tf-idf)之后生成word->tf(tf-idf)的对应表，那么构造成向量记做:

v=（a1，a2，…，an）此为为n维向量。a1...an为tf(tf-idf)，同时我们把word转换成int来作为下标。

实现：

	/**
	 * vector转换
	 * 
	 * @param map 单词和词频map
	 * @param otherInfo 用于保存的其他信息
	 * @return Vector
	 */
	public static Vector vector(Map<String, Double> map, String otherInfo) {
		Vector vector = new RandomAccessSparseVector(Integer.MAX_VALUE);
		NamedVector nv = new NamedVector(vector, otherInfo);
		Iterator<Entry<String, Double>> iterator = map.entrySet().iterator();
		while (iterator.hasNext()) {
			Entry<String, Double> entry = iterator.next();
			nv.setQuick(entry.getKey().hashCode(), entry.getValue());
		}
		return vector;
	}

PS：可以根据自己的需要选择相应的Vector实现类.

1
顶

6
踩

分享到：

"Java在淘宝AD系统中的应用"分享汇总 | 推荐引擎中的RMS和RMSE

2013-05-23 16:43
浏览 1667
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Mahout之文本向量化

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Mahout之文本向量化

评论

发表评论

相关推荐

cqlsh执行报错"No appropriate python interpreter found."

R之折线图

数据归一化

pearson相关系数计算

Mahout之Describe应用使用

Mahout分类之决策树PartialBuilder应用使用

数据挖掘之分类指标：召回率 、精确度、准确率、虚警率和漏警率

weka之Mysql数据装载

weka之数据预处理

Mahout之算法实现一览表

数据挖掘之CRISP-DM 模型

pearson相关系数

基于boilerpipe抽取页面乱码问题解决方式

基于lucene创建索引，查询索引的方式

Mahout之Slope-one应用使用

Mahout之Item-based应用使用

在做协同的时候Mahout支持的DataModel类型

推荐引擎中如何解决冷启动问题

推荐引擎中的RMS和RMSE

mahout之MinHash实现

最近访客更多访客>>

数据挖掘之分类指标：召回率、精确度、准确率、虚警率和漏警率