`
wangdei
  • 浏览: 366680 次
社区版块
存档分类
最新评论
文章列表
[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawle ...
前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五 ...
前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统: 其中 s1,s2,s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o ...
谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总 ...
2006年4月3日 上午 08:15:00从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。系列一: 统计语言模型 (Statistical Language Models) ...
网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。一个爬虫要做的事主要有以下这些 从一个网页 ...
引言 在Lingway公司,我们使用了Lucene至进今已有好几年时间。对那些刚接触Lucene的人来说,这里是使用它的关键:Apache Lucene是一个由java编写的高性能,全方位的单词搜索引擎库。   在批评它之前,我必须承认Lucene是一个高性能的划词搜索引擎。几年来,Lucene已经被看作是用java编写的嵌入式搜索引擎中的一等公民。它的声誉每日剧增,并且仍然是开源java搜索引擎中的最佳。每个人都在说:“Doug Cutting做了一项伟大的工作”。然而,最近的几个月内,开发的进程变得缓慢,我认为Lucene将不会满足现代的文档处理需求。不要把东西搞糟:我不是搜索引擎开发者,我 ...
级别: 高级 发华 金, 软件工程师,IBM CSDL, IBM樟洪 陈, 软件工程师,IBM CSDL, IBM 2005 年 11 月 10 日 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient,然后根据作者实际工作经验给出了一些常见问题的解决方法。 HttpClient简介 HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP ...
最近这两天我做了个最新电影网的视频网站,主要是从土豆抓取来的.所以内容页就是框架,不便于搜索的抓取。所以我就想加些相关内容,像这样的内容      由于我就是通过百度搜索关键字来填充内容。下面就是我通过htmlParser抓取的代码。 public class BaiduResultAction extends BaseAction {    public static final
原文链接:http://drunkmenworkhere.org/219.php中文翻译:benhur 持续修正中……欢迎多提意见! Contents Introduction Setup Overall results Yahoo! Slurp Googlebot MSNbot Spam bots Introduction 关于搜索引擎的大规模试验在持续了一年之后于2006-4-13结束 ...
一、 XXXObjectPoolFactory 这些类用来生成相应的XXXObjectPool,比如GenericKeyedObjectPoolFactory:这个类用来生成一个新的GenericKeyedObjectPool对象。它实际的作用只是保存创建一个GenericKeyedObjectPool对象所需要的配置参数。如果使用默认的配置 ...
选自<<精通Hibernate:Java对象持久化技术详解>> 作者:孙卫琴 来源:www.javathinker.org 如果转载,请标明出处,谢谢 1.1 Hibernate API 变化 1.1.1 包名 1.1.2 org.hibernate.classic包 1.1.3 Hibernate所依赖的第三方软件包 1.1.4 异常模型 1.1.5 Session接口 1.1.6 createSQLQuery() 1.1.7 Lifecycle 和 Validatable 接口 1.1.8 Interceptor接口 1.1.9 UserType和CompositeU ...
我在CIH中用ls -l显示如下: [wangdei@caitong-dev CIH]$ ls -l total 2612 drwxrwxr-x    4 wangdei  wangdei      4096 Jan 13 21:48 community -rw-rw-r--    1 wangdei  wangdei       440 Jan  6 10:08 list -rw-rw-r--    1 wangdei  wangdei       469 Jan 14 19:46 list. ...
今天SEO大赛关于西藏的问题,大家说说有没有什么想法啊? 关于西藏的问题,可以参考 http://www.bt285.cn/tibetisxizang 这里
如题:<a href="http://www.yaonba.com">这个网站</a>
Global site tag (gtag.js) - Google Analytics