话题监测与发现之热点新闻发现技术

博客分类：

数据分析/挖掘

最近在帮朋友做一个关于“热点新闻发现”的需求。先解释下什么是热点新闻发现：即在海量的新闻文本中，找到内容相似的那一类新闻，如果这类新闻的数量达到一定阈值，便认为该类新闻属于热点新闻。其实这一类� ...

2013-01-25 09:51
浏览 3706
评论(0)
分类:互联网

前段时间刚把苏杰同学的《人人都是产品经理》看完，早有耳闻，读完后第一感觉是：接地气——可能因为笔者曾在淘宝待过，而苏杰这本书的大部分原材料都取至阿里，因此书中所述内容笔者或多或少经历过。关于怎么才叫看过一本书，笔者的定义是：不仅自己看懂，并且能将其分享讲出来。因此，该本书也不例外，看完后花了一定时间准备PPT并在在团队内部进行了两次分享。而之所以写本文，主要是想描述当时笔者在做分享时对这本书理解的一个梳理过程，而非详述本书内容，因此可能有点标题党，还请各位看官轻拍。首先，上图是笔者关于此书列的大纲，整本书章节还是按照很常规的“由浅及深”的顺序进行编排； ...

2013-01-18 13:45
浏览 2541
评论(3)
分类:互联网

问题排查之OOM （非原创，来自于同事的邮件分享）

博客分类：

Java相关

OOM NIO

非原创，来自于同事的邮件分享。前段时间在测试过程中发现了mina 框架的问题：当mina 一次传输的文件超过一定值（如55m ）或者连续传输文件的次数过于频繁，就会内存溢出： org.apache.mina.filter.codec.ProtocolEncoderException: java.lang.OutOfMemoryError: Java heap space at org.apache.mina.filter.codec.ProtocolCodecFilter.filterWrite(ProtocolCodecFilter.java:217) at ...

2013-01-10 10:08
浏览 2698
评论(0)
分类:互联网

【转载】专访当当网前COO黄若：我只做从40到100的事情

博客分类：

其他

黄若

专访当当网前COO黄若：我只做从40到100的事情作者:未知更新时间:2011-8-27 19:40:27 来源:不详【字号: 大中小】浏览1349次我为8月号《天下网商·经理人》写的稿子。发表时有删节，这里是原稿。 ------ 黄若，资深零售人，曾 ...

2013-01-10 10:08
浏览 832
评论(0)
分类:非技术

【转载】推荐几个数据分析网站

博客分类：

数据分析/挖掘

数据分析网站

From http://blog.sina.com.cn/s/blog_5fc375650100oktm.html 随着数据的数量级增长，促进了数据分析的火热。但很多数据分析从业人员却感觉没有很好的获取行业资讯、技术交流的平台，今天就推荐几个经常上的觉得很不错的网站给大家。 1.人大经济论坛-计量经济学与统计区 http://www.pinggu.org/bbs/index.php?gid=148 业内人士都应该去过的门户，主要涉及计量经济学、统计学、数据挖掘、统计软件、数据等经济学相关问题交流统计软件交流 2.中国统计网 http://www ...

2013-01-04 09:45
浏览 1275
评论(0)
分类:互联网

数据挖掘只言片语

博客分类：

数据分析/挖掘

数据挖掘

写了好几篇关于数据挖掘算法的帖子，都属于技术上的细节贴。这篇文章主要对 ” 数据挖掘 ” 进行概述，让大家可以一窥数据挖掘的全貌。闲话不多说，直接进入主题。 1 什么是数据挖掘业界多将“数据挖掘”定义得很玄乎，个人觉得多有炒作概念之嫌。的确，数据挖掘给使用者带来很多“意想不到”的结果（惊喜 or 惊吓，嘿嘿），但并不是只有利用了高深、复杂理论的技术才能称之为“数据挖掘”。有些人种花，可能只要挖个半米就能将花种下，有些人打井，需要挖地百尺，但我们不能否认种花的人那不叫“挖”。所以，只要你“挖”了，并且达到了你想要的目的，这都属于数据挖掘范畴， ...

2013-01-04 09:44
浏览 1911
评论(0)
分类:互联网

【转载】周报的逻辑

博客分类：

其他

周报

最近新同事加入很多，按照我的要求，入职半年内需要发送周报给我，半年后自己选择是否仍需发送。这里有个看起来很愚蠢的问题。为什么要发周报？行业内可能大部分的人都认为，周报就是流水账，是主管显示权力的手段 ...

2013-01-04 09:44
浏览 832
评论(0)
分类:非技术

如何解决包冲突问题

博客分类：

Java相关

包冲突

随着业务需求的不断扩展，应用中代码量也会逐渐增长，工程中引用的二方包或者三方包也自然而然会越来越多。因此，不可避免，可能存在引用的二方包或三方包相互冲突所导致的系统问题。本文将针对前段时间遇到的实际案例进行分析，旨在当遇到包冲突问题时该如何解决，并提供同事用 python 写的一个发现包冲突的小工具（十分有用！）一发现问题：首先，让我们看下异常，这是在应用启动后，执行具体操作时所报的错误： Caused by: java.lang.NoSuchMethodError: com.google.common.collect.MapMaker. ...

2013-01-03 17:58
浏览 18821
评论(4)
分类:互联网

【转载】如何预测用户query意图

博客分类：

数据分析/挖掘

预测 query 意图

From http://www.searchtb.com/2011/01/how-to-predict-user-query-intent.html 有一个朋友问，一个用户搜索一个query是“百度”，怎么知道用户真正是想找什么呢。我回答说，分析之前搜索这个query的用户点了些什么结果啊。朋友继续问，如果没有用户点击呢。呃，如果没有点击，这个问题就比较复杂了。整理了下思路，于是写成了本文。主要描述了关于如何预测用户query意图。希望会有所帮助。首先我们的明确一个标准，如何判断我们对用户意图的猜测是正确的? 用户的思维是很发散的，也许今天搜索“葛优”，是想找“让子 ...

2013-01-03 17:57
浏览 1350
评论(0)
分类:互联网

初学者如何搭建zookeeper

博客分类：

分布式

zk 搭建

Step 1 下载 zookeeper 下载地址：http://www.apache.org/dyn/closer.cgi/zookeeper/ 直接下载到Linux服务器上请使用 wget 命令如： wget http://labs.renren.com/apache-mirror//zookeeper/zookeeper-3.4.2/zookeeper-3.4.0.tar.gz 如果先下载到windows操作系统上，可以使用 WinSCP 上传 zk 安装包（WinSCP使用很简单，类似FTP） Step 2 解压安装包这里使用zookeeper-3.4. ...

2013-01-03 17:57
浏览 1281
评论(0)
分类:互联网

【转载】Why MapReduce?

博客分类：

分布式

mapreduce

From http://www.cnblogs.com/mdyang/archive/2011/08/22/why_mapreduce.html现在MapReduce/Hadoop以及相关的数据处理技术非常热，因此我想在这里将MapReduce的优势汇总一下，将MapReduce与传统基于HPC集群的并行计算模型做一个简要比较，也算是对前一阵子 ...

2013-01-03 17:56
浏览 1172
评论(0)
分类:互联网

【转载】Kano模型在用户调研中的应用：客户关系管理工具调研实例

博客分类：

产品/用户

KANO

原文链接：http://www.alibuybuy.com/posts/77204.html 1、Kano模型简介 1.1 Kano模型起源：满意度的二维模式著名市场营销学大师、美国西北大学教授菲利普•科特勒说过：满意是指一个人通过对一个产品的可感知的效果与他的期望值相比较后，所形成的愉悦或失望的感觉状态。在竞争日益激烈的当下，用户的满意度直接影响着用户对于企业/产品的忠诚度，进而影响用户的粘性和流失。正因如此，每个公司/产品，都想了解自己客户的满意度状况，从而制定后续的策略和规划。在传统的观念里，会认为满意的反面就是不满意。然而赫兹伯格（1974）在研究员工满意度时提出了双因素理论 ...

2013-01-03 17:56
浏览 1087
评论(0)
分类:非技术

关联规则（二）强关联规则一定就是用户感兴趣的规则吗

博客分类：

数据分析/挖掘

关联规则强关联规则提升度

关联规则算法 Apriori 表明 , 当蕴含式 A->B 满足最小支持度阈值 min_support 和最小置信度阈值 min_confidence 时，则 A->B 属于强关联规则，规则中包含用户感兴趣的知识。但真的是这样吗？让我们先看个例子。假设某家商场只卖两种商品： CD 机和 Mp3 两种音乐播放器，每天的交易量有 10000 单，其中 6000 单中包含 CD 机， 7000 单中包含 Mp3 ， 3000 单中既包含 CD 又包含 Mp3 。 min_support=0. ...

2012-12-28 08:58
浏览 2413
评论(0)
分类:互联网

关联规则（一）Apriori算法

博客分类：

数据分析/挖掘

关联规则 Apriori

1．挖掘关联规则 1.1 什么是关联规则一言蔽之，关联规则是形如 X → Y 的蕴涵式，表示通过 X 可以推导 “ 得到 ” Y ，其中 X 和 Y 分别称为关联规则的先导 (antecedent 或 left-hand-side, LHS) � ...

2012-12-28 08:58
浏览 7804
评论(0)
分类:互联网

聚类分析（七）离群点分析

博客分类：

数据分析/挖掘

离群点

一、什么是离群点分析 1 、什么是离群点？在样本空间中，与其他样本点的一般行为或特征不一致的点，我们称为离群点。 2 、离群点产生的原因？第一，计算的误差或者操作的错 ...

2012-12-28 08:57
浏览 4983
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

话题监测与发现之热点新闻发现技术

<人人都是产品经理>读后感

问题排查之OOM （非原创，来自于同事的邮件分享）

【转载】专访当当网前COO黄若：我只做从40到100的事情

【转载】推荐几个数据分析网站

数据挖掘只言片语

【转载】周报的逻辑

如何解决包冲突问题

【转载】如何预测用户query意图

初学者如何搭建zookeeper

【转载】Why MapReduce?

【转载】Kano模型在用户调研中的应用：客户关系管理工具调研实例

关联规则（二）强关联规则一定就是用户感兴趣的规则吗

关联规则（一）Apriori算法

聚类分析（七）离群点分析

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>