`
文章列表
01.身体健康   02. 我这一生没有什么遗憾的,这是我的命运,我不后悔,因为我照顾了我的家人   02.借助信仰的力量   03.念及相关的每一个人   04.征求他人意见   05.诚恳但立场坚定   06.今天计划明天的工作,每天进步一点点   07.态度积极   08.保持幽默感   09.生活和工作有条不紊   10.不怕犯错,怕的是不能吸取教训   11.协助他人成功   12.多请教别人   13.专注于当前的工作,不为下一次任务或提升瞎操心
曾经我以为我背负了很多。 人的一生会有很多条路。看你如何去选择。很多人选择生活在这样的一个小城市,找一个爱自己的男人,安安静静的过一辈子,平平凡凡平平庸庸。很多人选择流浪在大城市,背井离乡,活得很艰苦但 ...
sudo add-apt-repository ppa:chromium-daily/ppa sudo apt-get update sudo apt-get install chromium-browser  
转自:http://jeck218.iteye.com/blog/357093   rsync用法  rsync -avz admin@10.1.6.167:/tmp/antx.properties  /cygdrive/c/ 下载antx.properties到本地c盘 rsync -avz /cygdrive/c/antx.properties  admin@10.1.6.167:/tmp/ 上传antx.properties rsync -avz - -delete -e 'ssh -l root' /cygdrive/E/workspace/com.hotye.webs ...
K-means is a pleasingly parallel algorithm that very easily fits into the Iterative map- reduce model.!   附件是一篇论文,伪代码和算法解释都很清楚。  
  原文链接:How to read a research paper [pdf] 作者:Michael Mitzenmacher 译者:Esther   本学期我们会讨论如何写论文。不过开课之前,我们要先搞懂如何读论文。我们的讨论前提是你有充分的理由仔细阅读论文。例如,我布置的作业(可能)是你要阅读的充分理由。如果要求你评判某篇论文或者它与你自己的论文相关,你也可能需要仔细阅读论文。我们后面也会讨论如何略读论文,这样你可以决定论文是否值得仔细阅读。 当你阅读论文时,你的目标是理解作者所做的科学贡献。这可不是一件容易事。一篇论文可能要求反复阅读很多遍,这会占用好几个小时。   阅 ...
  描述 EM是一种基于模型的聚类算法,假设样本符合高斯混合模型,算法的目的是确定各个高斯部件之间的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上个参数获得。        混合模型的定义是几个模型的线性加和,也就是说给每一个模型加上一个权重,几个模型都乘以一个权重数,权重的和是1。因此上述高斯混合模型就是多个高斯模型的加和,并给每一个模型都赋予一个权重值。         E过程是求期望的过程,为什么要求期望呢,原因就是为了让似然函数中的参数变得只有一个,就是要要估计的参数,然后才可以在M过程中求似然函数的极大值,得到新的参数估计值。 ...
转自:pagerank 在 hadoop 上的实现原理   PageRank 算法的基本思想是,网页的热门程度依赖于指向它的网页的热门程度。假设有页面 ,有  这  个页面包含指向 
    type,查看变量类型 dir,查看变量或者类型、可以使用的函数、属性。如果是类,必须用引号括起。 help, 用法和dir类似。 显示所有变量或者类的详细介绍。    
办法1: 把所有的第三方jar和自己的class打成一个大的jar包,这种方案显然笨拙,而且更新升级比较繁琐。 办法2:  在你的project里面建立一个lib文件夹,然后把所有的第三方jar包放到里面去,hadoop会自动加载lib依赖里面的jar。  此方法来自Including external jars in a Hadoop job "Luckily, I bumped into a solution suggested Doug Cutting as an answer to someone who had a similar predicament. The ...
  转自:http://www.pureweber.com/article/git-and-github/ Git的简介 Git是2005年Linus Torvalds 为了帮助管理 Linux(R) 内核开发而开发的一个开放源码的版本控制软件,正如所提供的文档中说的一样,”Git 是一个快速、可扩展的分布式版本控制系统,它具有极为丰富的命令集,对内部系统提供了高级操作和完全访问。”   Git的安装与配置 安装Git ubuntu 10.04源里有Git,直接用yum,apt-get安装即可。安装后直接使用即可,一些初始化的信息在下面有介绍。 配置ssh-key Githu ...
 众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一 ...

Java实现排列组合

    博客分类:
  • J2SE
1、全排列 package cn.edu.xmu.dm.others; import java.util.ArrayList; /** * 全排列算法 * */ public class Arrange { private int total = 0; private ArrayList<String> arrangeList = new ArrayList<String>(); public Arrange() { } private void swap(String list[], int k, in ...

Mahout资源

  Quickstart   Creating Vectors from Text Clustering Your Data  
转自: https://cwiki.apache.org/MAHOUT/creating-vectors-from-wekas-arff-format.html Introduction Mahout now has capabilities for converting Weka's ARFF (2.1) format to Mahout's Vector format. Running the Converter ARFF files are easily converted using the org.apache.mahout.utils.arff.Driver prog ...
Global site tag (gtag.js) - Google Analytics