`
文章列表

决策树

 决策树(DTs),是一种无参数的监督学习方法,用来分类和回归,目标是建立一个模型,可以通过学习数据特征的简单决策规则来预测目标属性的值。 如下图所示,决策树的输入数据近似正弦曲线,规则为if-then-else的规则集。树越深,抉择规则越复杂。 决策树的优点: (1)便于理解和解释。树是可视化的。 (2)值需要少量的数据准备工作。其它的方法需要数据正式化、需要创建虚拟值并且空值需要清理掉。但是,需要注意的是,这个模型不支持缺失的属性值。 (3)训练树的复杂度是log级别的 (4)能够同时处理数值和分类数据。其它的方法一般只能处理一种数据。 (5)可以支持多输出 (6)使用 ...
第一封 关于压力   鸡蛋,从外打破是食物,从内打破是生命。人生亦是,从外打破是压力,从内打破是成长。如果你等待别人从外打破你,那么你注定成为别人的食物,如果能让自己从内打破,那么你会发现自己的成长相当 ...
分类 ,classification,分类任务就是通过学习得到一个目标函数(target function),把每个属性集x映射到一个预先定义的类标号y。 目标函数也称为分类模型(classification model) 决策树,decistion tree 1.概念 决策树是一种由节点和有向边组成的层次结构,树中包含三类节点 (1)根节点,root node ,没有入边,但有0条或者多条出边 (2)内部节点,internal node,恰有1条入边和两条或者多条出边 (3)叶结点,leaf node,或终结点 terminal node ,恰有一条入边,但没有出边   在 ...
1.数据集的一般特征 (1)维度, dimensionality ,是数据集中的对象具有的属性数目。 (2)稀疏性,sparsity (3)分辨率 resolusion 2.数据质量 噪声、伪像、偏倚、精度、准确率、离群点、遗漏、不一致的值、重复数据 (1)测量误差和数据收集错误 测量误差,measurement error,测量过程中导致的问题,测量值与实际值的差称为误差。 (2)噪声和伪像 噪声,通常用语包含时间或者空间分量的数据。 (3)精度、偏倚、准确率 精度,precision,同一个量的重复测量值之间的接近程度 偏倚,bias,测量值和被测量之间的系统的变差 ...
1、数据挖掘概念 数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘是数据库中知识发现(knowledge discovery database KDD)不可缺少的 部分,而KDD是将未加工过的数据转换为有用信息的过程,包括数据预处理、数据挖掘和后处理等过程。 数据预处理:目的是将未加工的输入数据转化成适合分析的形式,包括融合多个数据源的数据,清洗数据以消除噪声或者重复的观测值,选择与当前数据挖掘人物相关的记录和特征。 2.数据挖掘任务分类 (1)预测建模(predictive modeling)包括分类(classification,用于预测离散的目标变量)和回归(re ...
 机器学习应用较多的分类为以下三种: (1)监督学习 supervised learning,通过已有的一部分输入数据和输出数据之间的对应关系,生成一个函数,将输入映射给合适的输出。如分类。 (2)非监督学习 unsupervised learning,直接对输入数据进行建模,例如聚类 (3)半监督学习 semi-supervised learning,综合利用有类标的数据和没有类标的数据,来生成合适的分类函数   1.监督学习 监督学习是训练神经网络和决策树最常见的技术,因为他们高度依赖事先确定的分类系统给出的信息。对于神经网络来说,分类系统用于判断网络的错误,然后调整网络适应 ...
  一个进程在内存中会占5个区域: 1.程序代码区 存放程序代码 2.常量区 一般定义字符串时,内容存放在常量区 如: char *tmp="hello"  //hello存放在常量区 3.全局(静态)存储区 全局变量,静态(static)变量存放在 ...

python学习记录

1.第一个例子 #!/usr/bin/python print "hello world!" 其中第一行的#号开始标识解释,只是给阅读者一个注释,不会编译运行。Python至少应当有第一行那样的特殊形式的注释。它被称作 组织行 ——源文件的头两个字符是#!,后 ...
如果创建的数组中包含中文汉字,输出时会以默认使用的ascii编码输出,可以使用json的库接口来解决问题,即 json.dumps(ddata,ensure_ascii=False,encoding='gb18030'),指定ensure_ascii=False来输出。 如: >>> print json.dumps(u'北京')                    "\u00b1\u00b1\u00be\u00a9" >>> print json.dumps(u'北京',ensure_ascii=False) " ...
  Search is a lot about discovery—the basic human need to learn and broaden your horizons. But searching still requires a lot of hard work by you, the user. So today I’m really excited to launch the Knowledge Graph, which will help you discover new information quickly and easily.   搜索更多的和发现相关-学习 ...

知识图谱入门

“信息”是不确定的减少,而“知识”则是结构化、有意义的关联。今天的互联网仍被看成是人/事/物信息的庞大联合体。她负责扩散,却不懂整理;她负责复制,却不懂创造;她负责聚合,却不懂合作。更重要的是,她没有(在一个相当大的范围内)帮助人们更好地思考、决策以及行动,没有帮助创造更好的人、组织和社会。所以,她仍旧只是人类文明的间接推动者,而不是直接的、更强有力的推动者。这就是今天的互联网所处的阶段:信息传播变革的阶段。今后的高带宽、云计算、物联网、更多传感器的移动互联网等等技术风尚,只能带来同一阶段的线性演进,并无法带来本质的跃迁。而未来真正的变革则属于如下两个阶段:知识生产变革阶段和社会组织变革阶段 ...
国内可用免费语料库(凡没有标注不可用的链接均可用)(一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
1.判断文件夹是否存在 if [  ! -d ${LOCAL_PATH} ];then     mkdir  ${LOCAL_PATH} fi   2.判断文件是否存在 if [   -f ${LOCAL_PATH}/data ];then     cat ${LOCAL_PATH}/data fi   3.判断文件是否有可执行权限 if [  ! -x ${LOCAL_PATH}/trans.exe ];then     chmod +x  ${LOCAL_PATH}/trans.exe fi   4.判断一个变量是否为0 var1=2 var2=4   ...

strncpy & memcpy

strncpy和memcpy的用途:从一块内存复制一段连续的数据到另一块内存 区别:终结标识不同。 strncpy会比较每个字符是否为'\0'以判定是否继续复制; memcpy不管内存数据内容,复制指定的长度(不讨论源串有错误或者目的空间不够等出错的情况)。   对于字符串类型,二者效果一直,但是对于二进制格式或者exe之类的序列化文件,复制最好采用memcpy。今天拷贝一个mcpack的结构体,开始使用strncpy,觉着代码写的没问题,但是解析完的字符串一直有问题,后来尝试memcpy,竟然成功了。 所以,在选用使用哪种接口时,最好先看一下自己要处理的数据类型。  
试用了多种方法,最简单的就是  echo -e "${url}\t${data}" 就是在echo后面加一个-e   还有一种就是\t写成$'\t' echo "${url}"$'\t'"${data}"  
Global site tag (gtag.js) - Google Analytics