`
Eric_2007
  • 浏览: 24395 次
  • 性别: Icon_minigender_1
  • 来自: 辽宁
社区版块
存档分类
最新评论
文章列表
网络蜘蛛基本原理 关键字: 网络蜘蛛 爬虫 spider 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。   对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来 ...
http://www.cnblogs.com/mjgforever/archive/2007/08/31/877076.html 前言        微软有很多MSXML的版本,如Msxml2.DOMDocument.6.0、Msxml2.DOMDocument.5.0、Msxml2.DOMDocument.4.0等。在浏览器中如何运用这些版本显得非常必要。        常见的错误用法: if (Web.Application.get_type() == Web.ApplicationType.InternetExplorer) 
XML DOM 初学者指南 http://www.yellowsheepriver.com/memberarea/infor/php/html/001/03html/001/0006.htm   总述:本文主要讨论如何利用XMLDOM访问和维护XML文档,该XMLDOM由Microsoft 解析器实现。 简介
http://www.xml.org.cn/dispbbs.asp?BoardID=11&id=23546&replyID=10134&star=2&skin=0 一、文档对象模型(DOM)   DOM是Document Object Model(文档对象模型)的简称,是对XML文档进行应用开发、编程的应用程序接口(API)。作为W3C公布的一种 ...
前面做了一个Heritrix1.14.1在Eclipse下的配置总结,那种配置方法虽然可以在Eclipse把Heritrix运行起来,但是存在在WUI下建立JOB时,存在“Modules界面不能改变选择项”的问题。   因此又试了一下,如果能够按以下方法配置,即可正常启动,并且不再发生上面提到的问题。简要说明如下:   1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;   2、在Eclipse下新建Java项目,取名Heritrix.1.14.1;   3、复制SRC包下面src/java文件夹下o ...
    前几天,装上了ubuntu8.10,感觉很不错,有一点很不明白,就是明明是插上耳机的为什么音响里面还有声音,这个问题一直困扰了我好几天,由于是在实验室怕打扰其他同学,也不好调试,今天终于弄好了,原来很简单:     只要关掉(可能应该是打开)声音开里面的Headphone Jack Sence就好了。     双击任务栏小喇叭->设备第一项->开头选项板->Headphone Jack Sence打勾!     如果没有该选项,在面板的首选项里找到该选项打勾就好了!     可能只能我这样第一次用Linux的人会遇到这样的问题吧:)
    今天终于把Heritrix启动起来了,在此做些总结。     很长时间就想试试这个强大的爬虫了,但是经过多次在命令行里按照网上的各位大侠的方法都失败,不知道为什么,今天还试了一下1.12.1和1.14.1两个版本的,都是提示密码文件的要设成单用户并只读,我已经如此设置了安全标签,但仍不能解决问题,所以决定在Eclipse里面试一下,多次失败后,终于成功启动了Heritrix!     下面简要列一下,其实很简单:     1、在Eclipse下新建一个项目。(哪一个版本应该无所谓吧,JDK1.5);     2、将1.14.1版的Heritrix两个.zip文件下载并解压到临时目录(he ...
//http://www.iteye.com/topic/93119 在开发中小型搜索引擎的过程中,我使用由Java开发的开源软件:jspider,htmlparser,lucence,IKAnalyzer,下面我一一道来。 lucence很著名啦,不必多说,我写的这个引擎就是在它自带的demo基础上重构的。 jspider顾名思义,是一个用Java开发的爬虫。 htmlparser是解析html页面的,因为lucene自带的html解析器不够健壮,所以用了这个。 IKAnalyzer是为lucence定做的中文分词组件,在使用中我发现效果不错。 具体的编码下次再说吧,呵呵 接着 ...
How to get IOleSite interface of the WebBrowser in an ActiveX control //From http://www.cnblogs.com/jonnyyu/archive/2004/02/14/1248.html //based on Q172763 HOWTO: Retrieve the Top-Level IWebBrowser2 Interface from an ActiveX Control using System; using System.ComponentModel; using System.Wi ...
Spring的jar包解析 关键字: spring的jar包解析 摘自:  http://heilwolf.iteye.com/blog/171387 下载的spring包中文件及各种包众多,在项目中往往只有部分是我们必须的,如果不清楚什么时候需要什么包的话,看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包,关于发布包下面会详细进行说明。 docs 目录下是相关的文档,包括有Spring api 的javadoc、reference 参 ...
来源:http://www.blogjava.net/zhouxing/archive/2007/12/14/167864.html 垂直搜索引擎 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。 垂直搜索引擎能否赢得市场? 垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。因此,特定行业的用户 ...
heritrix的启动与设置收藏 新一篇: EPC901安装XP | 旧一篇: Heritrix使用笔记——Heritrix运行脚本 转自http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html,很好的介绍了heritrix的启动与设置 初步学习了Heritrix,这个网络小爬虫,以下 ...
Global site tag (gtag.js) - Google Analytics