数据挖掘-分词入门

博客分类：

算法

分词数据挖掘正向最大匹配语义

谷歌4亿英镑收购人工智能公司DeepMind，百度目前正推进“百度大脑”项目，腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生，硬件速度上升、成本降低，大数据技术的落地实现，让冷冰冰的数据具有智慧逐渐成� ...

2014-09-16 09:02
浏览 582
评论(0)
分类:编程语言

搭建高可用mongodb集群（四）—— 分片

博客分类：

技术
架构
java
mongodb

mongodb 故障转移 shard 分片负载均衡

按照上一节中《搭建高可用mongodb集群（三）—— 深入副本集》搭建后还有两个问题没有解决：从节点每个上面的数据都是对数据库全量拷贝，从节点压力会不会过大？数据压力大到机器支撑不了的时候能否做到自动扩展？在系统早期，数据量还小的时候不会引起太大的问题，但是随着数据量持续增多，后续迟早会出现一台机器硬件瓶颈问题的。而mongodb主打的就是海量数据架构，他不能解决海量数据怎么行！不行！“分片”就用这个来解决这个问题。传统数据库怎么做海量数据读写？其实一句话概括：分而治之。上图看看就清楚了，如下 taobao岳旭强在infoq中提到的架构图：

2014-03-31 09:42
浏览 1026
评论(0)
分类:互联网

搭建高可用mongodb集群（三）—— 深入副本集内部机制

博客分类：

技术
mongodb
算法
架构

Bully算法 mongodb 副本集奇数选举

在上一篇文章《搭建高可用mongodb集群（二）—— 副本集》介绍了副本集的配置，这篇文章深入研究一下副本集的内部机制。还是带着副本集的问题来看吧！副本集故障转移，主节点是如何选举的？能否手动干涉下架某一台� ...

2014-02-18 13:35
浏览 2545
评论(3)
分类:互联网

搭建高可用mongodb集群（二）—— 副本集

博客分类：

java
mongodb

mongodb nosql 仲裁副本集故障转移

在上一篇文章《搭建高可用MongoDB集群（一）——配置MongoDB》提到了几个问题还没有解决。主节点挂了能否自动切换连接？目前需要手工切换。主节点的读写压力过大如何解决？从节点每个上面的数据都是对数据库全量拷贝，从节点压力会不会过大？数据压力大到机器支撑不了的时候能否做到自动扩展？这篇文章看完这些问题就可以搞定了。NoSQL的产生就是为了解决大数据量、高扩展性、高性能、灵活数据模型、高可用性。但是光通过主从模式的架构远远达不到上面几点，由此MongoDB设计了副本集和分片的功能。这篇文章主要介绍副本集： mongoDB官方已经不建议使用主从模式了，替代方案是采 ...

2013-12-30 09:30
浏览 1835
评论(0)
分类:数据库

搭建高可用mongodb集群（一）——配置mongodb

mongodb nosql 主从复制故障转移集群

在大数据的时代，传统的关系型数据库要能更高的服务必须要解决高并发读写、海量数据高效存储、高可扩展性和高可用性这些难题。不过就是因为这些问题Nosql诞生了。 NOSQL有这些优势：大数据量，可以通过廉价服务器存储� ...

2013-11-18 09:37
浏览 2379
评论(1)
分类:数据库

海量数据相似度计算之simhash短文本查找

博客分类：

算法
架构
创业
java

simhash 局部敏感哈希海明距离海量数据相似度

在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是很慢，还在秒级别。给大家算一笔账就知道了：随着业务增长需要一个小时处理100w次，一个小时为3600 *1000 = 360w毫秒，计算一下一次相似度比较最多只能消耗 360w / 100w = 3. ...

2013-09-09 07:34
浏览 2962
评论(0)
分类:互联网

海量数据相似度计算之simhash和海明距离

博客分类：

java
算法
技术
敏捷
架构

Hamming_distance simhash 局部敏感哈希海明距离海量数据

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单，我们来做个测试，就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度 ...

2013-08-26 07:33
浏览 2869
评论(5)
分类:编程语言

实战低成本服务器搭建千万级数据采集系统

博客分类：

jeecrawler
java
技术
架构

千万级廉价PC服务器爬虫高性能

上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构，讲架构一般都比较虚，这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。有这样一个采集系统的需求，达成指标：需要采集30万关键词的数据、微博必须在一个小时采集到、覆盖四大微博（新浪微博、腾讯微博、网易微博、搜狐微博）。为了节约客户成本，硬件为普通服务器：E5200 双核 2.5G cpu， 4 G DDR3 1333内存，硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标？当然如果有更好的硬件不是这个文章阐述的内容。现通过采集、存储来说明一下 ...

2013-08-05 19:28
浏览 3255
评论(17)
分类:互联网

社会化海量数据采集爬虫框架搭建

博客分类：

java
架构
hadoop

反监控海量数据抓取爬虫采集

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？ 1、打开浏览器，输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整个过程主要为网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。

2013-07-26 09:39
浏览 1101
评论(0)
分类:互联网

实战做项目如何选择开源许可协议（二）- 开放代码

博客分类：

架构
管理
java

codeplex github googlecode sourceforge 开源软件许可协议

通过《实战做项目如何选择开源许可协议（一）-了解协议》大概知道了有哪些开源协议和各个协议的作用和区别。我们准备把代码开放出去时，需要了解各个代码托管平台如何设置开源协议。目前常用的平台有：googlecode、github、sourceforge、codeplex。下面分别列一下这些平台如何设置开源协议： 1、googlecode，google推出的代码托管平台，整体可用还是比较强的，如果不是经常被墙用这个也可以。支持svn、git协议。要在这个上面共享代码，首先需要注册一个google账号，登录。在url输入 http://code.google.com/intl/zh-CN ...

2013-07-17 09:40
浏览 1118
评论(0)
分类:开源软件

实战做项目如何选择开源许可协议（一）-了解协议

博客分类：

管理
架构
创业

BSD GPL MIT 开源软件许可协议

目前国内开源项目正在逐渐升温，中国也开始有不少优秀的开源项目突显出来。在大家摩拳擦掌准备加入开源大军时，也要知道这个圈子里的规则。技术人员不能只是研究技术，任何圈子都有规则，要知道了才能玩得好。前段时 ...

2013-07-05 10:14
浏览 1918
评论(3)
分类:开源软件

创业公司如何实施敏捷开发

博客分类：

创业
管理
敏捷

创业敏捷开发 scrum

说起敏捷开发，并不是因为敏捷而敏捷。这几年的敏捷开发已经被很多敏捷咨询服务商神话了，这个东西并不是神器，实施了就可以解决所有软件公司的问题，而是要结合自己公司的特点和问题摸索出适合自己的一套模式。 ...

2013-06-24 10:57
浏览 2247
评论(0)
分类:研发管理

技术人员如何创业《四》- 打造超强执行力团队

博客分类：

创业
管理

技术人员创业团队执行力

好的团队是创业公司成功的必要因素之一。差劲的团队会导致整个团队没有战斗力，互相算计，只看到自己的利益，永远做不成一个好的产品。优秀的团队整个团体非常有凝聚力，以公司的事业为自己的事业，各自发挥自己的特长并互相帮助对方，不计较个人短暂的得失努力把公司推向一个又一个高点。我想没有一个创业者不想建立这样的团队，但很多人想法是好的，为什么最终却达不到理想团队的效果呢？要知道人的问题永远是最复杂、最难处理的，因为人是可变化的实体，而作为技术创业者的我们对于电脑、程序处理的得心应手，但对于人来说就不是那么容易了。和团队、和客户等等相关处理，需要很 ...

2013-06-17 11:26
浏览 1001
评论(0)
分类:非技术

技术人员如何创业《一》—— 产品及想法

博客分类：

创业
产品
管理

产品创业技术管理

不得不说这是个浮躁的社会，人人在这个社会都想暴富或者成名。在这些引诱的驱使下很多人都脱离了原来的稳定工作创业。前几天看了《中国合伙人》，故事讲到了几个大学生从校园到工作、再到创办了一个伟大的企业，这� ...

2013-05-30 08:51
浏览 1542
评论(0)
分类:非技术

JAVA线程池管理及分布式HADOOP调度框架搭建

博客分类：

java
架构
hadoop
jeetask

分布式线程池 java 架构 hadoop

平时的开发中线程是个少不了的东西，比如tomcat里的servlet就是线程，没有线程我们如何提供多用户访问呢？不过很多刚开始接触线程的开发攻城师却在这个上面吃了不少苦头。怎么做一套简便的线程开发模式框架让大家从单线程开发快速转入多线程开发，这确实是个比较难搞的工程。那具体什么是线程呢？首先看看进程是什么，进程就是系统中执行的一个程序，这个程序可以使用内存、处理器、文件系统等相关资源。例如 QQ软件、eclipse、tomcat等就是一个exe程序，运行启动起来就是一个进程。为什么需要多线程？如果每个进程都是单独处理一件事情不能多个任务同时处理，比如我们打开qq只能和一个人聊天，我们用ec ...

2013-05-23 10:45
浏览 1824
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据挖掘-分词入门

搭建高可用mongodb集群（四）—— 分片

搭建高可用mongodb集群（三）—— 深入副本集内部机制

搭建高可用mongodb集群（二）—— 副本集

搭建高可用mongodb集群（一）——配置mongodb

海量数据相似度计算之simhash短文本查找

海量数据相似度计算之simhash和海明距离

实战低成本服务器搭建千万级数据采集系统

社会化海量数据采集爬虫框架搭建

实战做项目如何选择开源许可协议（二）- 开放代码

实战做项目如何选择开源许可协议（一）-了解协议

创业公司如何实施敏捷开发

技术人员如何创业《四》- 打造超强执行力团队

技术人员如何创业《一》—— 产品及想法

JAVA线程池管理及分布式HADOOP调度框架搭建

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>