`
nk_tocean
  • 浏览: 3343 次
  • 性别: Icon_minigender_1
  • 来自: 天津
最近访客 更多访客>>
社区版块
存档分类
最新评论
文章列表
1 新建一个表 hive -e "create external table if not exists uid_vid_test(uid string, vid string) row format delimited fields terminated  by '\t'" 注意后面的\t,表示数据以\t分割   2 从本地导入数据 执行hive -e "load data local inpath 'uidvid' into table uiv_vid_test" 导入到uid_vid_test表中   3 查看数据 hive -e ...

k近邻算法

        k紧邻算法用来进行分类。分类方法为:对每个待分类数据,计算该数据与每个训练数据之间的距离,对数据进行排序后,找出前k个距离最近的训练样例。这k个训练样例所属的分类中,最多的分类即判定为该数据的分类。距离计算可以使用欧氏距离,并且要把所有数据归一化。          可以很容易的看出,该方法有个缺点,就是对每一个查询数据,都要和所有的训练数据对比一遍,效率比较低下。另外,想要找到哪个属性对分类的影响最大也比较困难。          《机器学习实战》这本书上有两个不错的实例,约会网站匹配和手写识别。
一直想要学习python,之前自己看过一段时间,但是苦于没有项目可以实践,过段时间久忘了。想了解下机器学习,看到有本书,叫做<机器学习实战>,书中算法全部用python实现。这不正好可以拿python练练手吗。 1 安装python 可以选择安装更新版本的3.x,但是为了在学习中少走弯路,决定使用和书中一样的2.6版本。 下载地址为http://www.python.org/download/releases/2.6.6/ 安装x86版本即可,如果安装x86-64版本,以后安装numpy可能会不成功。 2 安装numpy 机器学习肯定要用到线性代数,python中用的 ...
这块知识不太牢固,一提起来就有点怵。今天抽空整理下。 当做表的关联时,有时我们只需要完全符合条件的记录,这就需要用到内连接。有时需要把其中一个表中的所有记录找出来,这就需要用到外连接。关联方法一般是select * from a (left/right/inner) join b on a.xx = b.xx 1 内连接 形式为:select * from a (inner) join b on a.xx = b.xx 只返回满足a.xx=b.xx的记录。默认的join就是内连接。 2 外连接 外连接包括左外连接和右外连接。 左外连接:select * from a left ...
Global site tag (gtag.js) - Google Analytics