nk_tocean

浏览: 3343 次
性别:
来自: 天津

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

1 新建一个表 hive -e "create external table if not exists uid_vid_test(uid string, vid string) row format delimited fields terminated by '\t'" 注意后面的\t，表示数据以\t分割 2 从本地导入数据执行hive -e "load data local inpath 'uidvid' into table uiv_vid_test" 导入到uid_vid_test表中 3 查看数据 hive -e ...

2014-10-10 18:10
浏览 838
评论(0)
分类:互联网

k近邻算法

博客分类：

机器学习

k紧邻算法用来进行分类。分类方法为：对每个待分类数据，计算该数据与每个训练数据之间的距离，对数据进行排序后，找出前k个距离最近的训练样例。这k个训练样例所属的分类中，最多的分类即判定为该数据的分类。距离计算可以使用欧氏距离，并且要把所有数据归一化。可以很容易的看出，该方法有个缺点，就是对每一个查询数据，都要和所有的训练数据对比一遍，效率比较低下。另外，想要找到哪个属性对分类的影响最大也比较困难。《机器学习实战》这本书上有两个不错的实例，约会网站匹配和手写识别。

2014-03-13 20:52
浏览 567
评论(0)
分类:互联网

python及numpy安装

博客分类：

机器学习

python numpy

一直想要学习python，之前自己看过一段时间，但是苦于没有项目可以实践，过段时间久忘了。想了解下机器学习，看到有本书，叫做<机器学习实战>，书中算法全部用python实现。这不正好可以拿python练练手吗。 1 安装python 可以选择安装更新版本的3.x，但是为了在学习中少走弯路，决定使用和书中一样的2.6版本。下载地址为http://www.python.org/download/releases/2.6.6/ 安装x86版本即可，如果安装x86-64版本，以后安装numpy可能会不成功。 2 安装numpy 机器学习肯定要用到线性代数，python中用的 ...

2014-03-09 11:40
浏览 1398
评论(0)
分类:互联网

数据库中的内连接、外连接

博客分类：

数据库

sql 左连接右连接内连接

这块知识不太牢固，一提起来就有点怵。今天抽空整理下。当做表的关联时，有时我们只需要完全符合条件的记录，这就需要用到内连接。有时需要把其中一个表中的所有记录找出来，这就需要用到外连接。关联方法一般是select * from a (left/right/inner) join b on a.xx = b.xx 1 内连接形式为：select * from a (inner) join b on a.xx = b.xx 只返回满足a.xx=b.xx的记录。默认的join就是内连接。 2 外连接外连接包括左外连接和右外连接。左外连接：select * from a left ...

2014-01-20 16:48
浏览 540
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive建表及导入数据

k近邻算法

python及numpy安装

数据库中的内连接、外连接

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive建表及导入数据

k近邻算法

python及numpy安装

数据库中的内连接、外连接

最近访客更多访客>>