红警3的雷人结局 —— 你选哪个？

博客分类：

心路历程

游戏

我发现EA的游戏越来越对程序员/宅男的胃口了，呵呵…… 回想第一次打红警，好像是初中的时候了

2011-03-25 17:59
浏览 1642
评论(1)
分类:非技术

使用标签云扩展自己的应用

博客分类：

图像识别、机器学习、数据挖掘

云计算 lucene 互联网 HTML

标签云或文字云是关键词的视觉化描述，用于汇总用户生成的标签或一个网站的文字内容。标签一般是独立的词汇，常常按字母顺序排列，其重要程度又能通过改变字体大小或颜色来表现。所以标签云可以灵活地依照字序或热门程度来检索一个标签。大多数标签本身就是超级链接，直接指向与标签相联的一系列条目。互联网标签云（Tag Cloud）的概念最早由Stewart Butterfield在《Make a Flickr-Style Tag》一文中提出。在那些用户分享频繁的web2.0网站，比如Flickr、Del.icio.us和Technorati中得到了广泛的应用。简要总结了一下，标签云的作用主要有以下三类： ...

2011-03-23 21:50
浏览 1572
评论(0)
分类:编程语言

Pascal VOC Challenge —— 图像识别与物件分类的挑战

博客分类：

图像识别、机器学习、数据挖掘

Pascal 算法 Microsoft 活动 XML

在计算视觉的领域中，Pascal VOC Challenge 就好比是数学中的哥德巴赫猜想一样。Pascal的全称是Pattern Analysis, Statical Modeling and Computational Learning。每年，该组织都会提供一系列类别的、带标签的图片，挑战者通过设计各种精妙的算法，仅根据分析图片内容来将其分类，最终通过准确率、召回率、效率来一决高下。这项活动从2005年开始，每年的样本数据库都有所不同： YearStatisticsNew developmentsNotes2005Only 4 classes: bicycles, cars, motor ...

2011-03-22 13:35
浏览 27134
评论(0)
分类:互联网

我的数学之美（一）——RANSAC算法详解

博客分类：

图像识别、机器学习、数据挖掘

算法 C C++C#J#

给定两个点p1与p2的坐标，确定这两点所构成的直线，要求对于输入的任意点p3，都可以判断它是否在该直线上。初中解析几何知识告诉我们，判断一个点在直线上，只需其与直线上任意两点点斜率都相同即可。实际操作当中，往� ...

2011-03-14 12:53
浏览 101336
评论(0)
分类:编程语言

两张图说明图像搜索原理

忽然发觉做图像自动分类的人还真不少，今天在网上发现两张猛图

2011-03-03 23:32
浏览 2008
评论(2)
分类:编程语言

Locality Sensitive Hash

博客分类：

算法与数据结构

数据结构算法

局部敏感哈希——Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒� ...

2011-03-01 22:56
浏览 11771
评论(2)
分类:编程语言

程序员，你的价值何在？

博客分类：

心路历程

招聘 SSH 网络应用面试工作

招聘成为了最近整个部门的大事，也成为我绩效考核的一个重要指标。当然，为了完成指标，动员了一切力量来找来简历面试。在此期间，猛然发觉，对工作、职场又有了新的理解。最近我所收录的3-9年JAVA工作经历、架构师或� ...

2011-02-27 18:33
浏览 1744
评论(2)
分类:非技术

2011年规划

博客分类：

心路历程

lucene 算法工作

2011年，工作重点集中在图片方面，主要包括以下几个方面：图片质量的提高，水印样式的优化图片存储优化图片特征提取、近重复图片检索、物件识别检索上述研究成果希望能有更多产品、专利的产出学习方面，主要期待以下方面的成长： Lucene Java Advanced Image 一些图像特征提取的算法：SIFT、SURF、MSER等一些高维向量量化的处理方法：Approximate Kmean Cluster、Locality Sensitive Hash、min-hash、PCA等

2011-02-25 12:25
浏览 1426
评论(0)
分类:非技术

K Nearest Neighbor问题的解决——KD-TREE Implementation

博客分类：

算法与数据结构

数据挖掘数据结构 Blog

命题一：已知的1000个整数的数组，给定一个整数，要求查证是否在数组中出现？命题二：已知1000个整数的数组，给定一个整数，要求查找数组中与之最接近的数字？命题三：已知1000个Point（包含X与Y坐标）结构的数组，给定一个Point，要求查找数组中与之最接近（比如：欧氏距离最短）的点。命题四：已知1,000,000个向量，每个向量为128维；给定一个向量，要求查找数组中与之最接近的K个向量对于命题一，如果不考虑桶式、哈希等方式，常用的方法应该是排序后，使用折半查找。对于命题二，与命题一类似，比较折半查找得出的结果，以及附近的各一个元素，即可。整个过程相当于是把这个 ...

2011-02-24 12:33
浏览 10481
评论(1)
分类:编程语言

漫谈计算机视觉

博客分类：

图像识别、机器学习、数据挖掘

搜索引擎 IBM 数据结构工作

从输入图象到信息获取之间存在着巨大的认知空白，其间需要经过一系列十分复杂的信息处理和理解过程。想象一下，在火车站，我们可以从茫茫人群中精确地找出要迎接的伙伴，这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识，乃是揭开机器视觉进步的关键。对计算机而言，所有的输入均是矩阵，机器视觉的目的，就是要从这些矩阵中获取有用的信息。计算机对图像内容的识别，按照难度、应用场景、所使用方法的不同，可以划分为三类： 1、近重复图片检索，主要是查找同源图片的不同版本（光照、旋转、缩放、模糊、logo、水印等、裁剪） 2、场景图片检索，又称物件识别检索，主要是查找在不 ...

2011-02-22 17:27
浏览 2842
评论(0)
分类:编程语言

Java PriorityQueue with fixed size

博客分类：

算法与数据结构

Java 搜索引擎 IDEA

这个问题来源于StackOverFlow： http://stackoverflow.com/questions/1846225/java-priorityqueue-with-fixed-size 为方便各位阅读，我把楼主的问题贴出来：引用 Hi folks, I am calculating a large number of possible resulting combinations of an algortihm. To sort this combinations I rate them with a double value und store them in Prior ...

2011-02-18 11:08
浏览 3262
评论(0)
分类:编程语言

Standard Kmean Cluster的实现[Java]

博客分类：

图像识别、机器学习、数据挖掘

Java 算法 J#C C++

Kmean Cluster是一种机器学习中常用的无监督分析方法，例如，在最近的项目中，要从数以百万、千万计的高维图像特征中提取具有代表性的视觉词，就用到了此类技术。 Kmean并不是一种高效的算法，理论可以证明，在欧几里得空间中的Kmean问题是NP-Hard（即使聚类数仅为2）。假设单个向量维度为d，向量数为n，目标聚类数为k，则算法的时间复杂度=n^(dk+1)*logn。 kmean的示意图如下：一些启发式的算法对Standard Kmean的效率进行了优化，常见的包括：基于最大期望的算法（EM algorithm）：采用概率的方式将输入向量分配到各个聚类当中（而非Stan ...

2011-02-17 13:56
浏览 5559
评论(2)
分类:编程语言

杀人不难——读《放学后》有感

博客分类：

推理小说

读书生活

作为东野的成名作，以及乱步小说的获奖作品，这部小说的确没有让我失望。东野的小说，想来给人一种平凡中见真谛的感觉，开始总感觉挺平淡的，最后被当头棒击，这种感觉相当震撼。《放学后》应是一部兼具本格以及社会量大流派特色的小说，既不似岛田庄司那般强调诡计、凝造悬疑气氛，也不想松本清张那样完全抛弃推理手法；更值得一提的是东野细腻的描述人物心理手法，尤其是女性，这一点在《嫌疑人犯X的献身》以及《圣女的救济》中也可见一斑。《放学后》作为密室杀人，并不见得十分出彩，但其对杀人动机的诠释确实相当精辟，任何在外人看来的小事都可以当做杀人动机。当初乱步奖评审委员中曾有人表示该小说“杀人动机缺乏说服力”，但从我看来 ...

2011-02-14 14:02
浏览 1738
评论(1)
分类:非技术

使用tesseract-ocr破解网站验证码

博客分类：

图像识别、机器学习、数据挖掘

Groovy HP Google Blog

首先我得承认，关注tesseract-ocr，是冲着下面这篇文章的噱头去的，26行groovy代码破解网站验证码 http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/ 当然，看了之后才知道，原来是调用了三方库tesseract-ocr…… http://code.google.com/p/tesseract-ocr/ 尽管如此，本着邓爷爷的“不管白猫黑猫，能抓住老鼠的就是好猫”的原则，趁着假期也开始了“文字识别”的初级研究 ...

2011-02-12 10:24
浏览 41643
评论(7)
分类:编程语言

JAVA并发设计模式学习笔记（二）—— Single Threaded Execution Pattern

博客分类：

设计模式

设计模式 Java 多线程 thread

注：本文的主要参考资料为结城浩所著《JAVA多线程设计模式》。单线程执行模式（Single Threaded Execution Pattern）是最简单的多线程设计模式，几乎所有其他的模式都在不同程度上应用了该模式。先看一个程序，通过它可以体验多线程程序无法正确执行的场景，这里所写的是个关于“只能单个通过的门”的程序：有三个人频繁地、反复地经过一个只能容许单人经过的门，当人通过门的时候，这个程序显示出通过人的“姓名”与“出生地”，其代码如下： public class Gate { private int counter = 0; private String nam ...

2011-01-25 14:33
浏览 2187
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

红警3的雷人结局 —— 你选哪个？

使用标签云扩展自己的应用

Pascal VOC Challenge —— 图像识别与物件分类的挑战

我的数学之美（一）——RANSAC算法详解

两张图说明图像搜索原理

Locality Sensitive Hash

程序员，你的价值何在？

2011年规划

K Nearest Neighbor问题的解决——KD-TREE Implementation

漫谈计算机视觉

Java PriorityQueue with fixed size

Standard Kmean Cluster的实现[Java]

杀人不难——读《放学后》有感

使用tesseract-ocr破解网站验证码

JAVA并发设计模式学习笔记（二）—— Single Threaded Execution Pattern

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>