解析网页利器组合（正则、jsoup、beanshell、dozer）资源

博客分类：

java编程

由于项目需要使用java正则、jsoup、dozer、beanshell组合用来解析网页，现把相关资源整理记录： dozer : 基于beanUtils实现的对象转化工具，实现各种类型之间对象的深层次复制。 beanshell : 一种完全符合java语法的松散类型的脚本语言，可以用来完成简单或复杂对象的逻辑判断。 dozer和beanshell之前接触的少，需要的话网上找资料，附件为入门word。 jsoup资源： http://www.open-open.com/jsoup/selector-syntax.htm，语法类似jquery，基于document， ...

2012-05-31 16:09
浏览 1427
评论(0)
分类:研发管理

Java正则表达式(二)

博客分类：

java编程

Matcher类: 使用Matcher类,最重要的一个概念必须清楚:组(Group) ,在正则表达式中 ()定义了一个组,由于一个正则表达式可以包含很多的组,所以下面先说说怎么划分组的, 以及这些组和组的下标怎么对应的. 下面我们看看一个小例子,来说明这个问题引用 \w(\d\d)(\w+) 这个正则表达式有三个组: 整个\w(\d\d)(\w+) 是第0组 group(0) (\d\d)是第1组 group(1) (\w+)是第2组 group(2) 我们看看和正则表达式匹配的一个字符串x99S ...

2012-05-31 15:47
浏览 834
评论(0)
分类:研发管理

Java正则表达式(一)

博客分类：

java编程

正则表达式在处理文本方面用处非常大，最早像在Perl和awk语言中，提供了这种机制，Java在Java 2中也增加了正则表达式这个包java.util.regex。这个包为用户使用正则表达式，提供了易用而全面的支持。我的研究方向是web挖掘。从网页中提取内容,处理文本，当然需要正则表达式这个强大的工具了。一、首先我们看一下怎么使用正则表达式的一个例子： A Matcher examines the results of applying a pattern. 我们希望从这句话中找到所有开头为a的单词。当然这只是一个简单的例子，你可以使用String提供的spl ...

2012-05-31 15:46
浏览 815
评论(0)
分类:研发管理

Java正则表达式详解

博客分类：

java编程

如果你曾经用过Perl或任何其他内建正则表达式支持的语言，你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语，那么“正则表达式”（Regular Expression）就是一个字符构成的串，它定义了一个用来 ...

2012-05-31 15:45
浏览 804
评论(0)
分类:研发管理

SOLR搭建企业搜索平台

博客分类：

搜索引擎(lucene/solr)

一、SOLR搭建企业搜索平台--MultiCore Solr Multicore 是 solr 1.3 的新特性。其目的一个solr实例，可以有多个搜索应用。我们知道你既可以把不同类型的数据放到同一index中，也可以使用分开的多indexes。基于这一点，你只需知道如何使用多 indexes（实际上就是运行Solr的多实例）。尽管如此，为每一个类型添加一个完整的Solr实例会显得太臃肿庞大。Solr1.3引入了Solr core的概念，该方案使用一个Solr实例管理多个indexes，这样就有热点core（hot core）的重读（reloading）与交换（swap，通常是读index与写 ...

2012-05-24 18:34
浏览 1780
评论(0)
分类:开源软件

solr理论

博客分类：

搜索引擎(lucene/solr)

1、 solr基础因为 Solr 包装并扩展了 Lucene，所以它们使用很多相同的术语。更重要的是，Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。在 Solr 和 Lucene 中，使用一个或多个 Document 来构建索引。Document 包括一个或多个 Field。Field 包括名称、内容以及告诉 Solr 如何处理内容的元数据。例如，Field 可以包含字符串、数字、布尔值或者日期，也可以包含你想添加的任何类型，只需用在solr的 ...

2012-05-24 17:11
浏览 1024
评论(0)
分类:开源软件

solr中Schema.xml和solrconfig.xml分析

博客分类：

搜索引擎(lucene/solr)

一、字段配置（schema） schema.xml位于solr/conf/目录下，类似于数据表配置文件，定义了加入索引的数据的数据类型，主要包括type、fields和其他的一些缺省设置。 1、先来看下type节点，这里面定义FieldType子节点，包括name,class,positionIncrementGap等一些参数。 name：就是这个FieldType的名称。 class：指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。 [xhtml] view plaincopy

2012-05-24 17:09
浏览 1660
评论(0)
分类:开源软件

solr部署

博客分类：

搜索引擎(lucene/solr)

1，从官方网站下载solr：apache-solr-3.4.0.zip 2，解压已经下载的文件后如下所示 Xml代码 E:\jar\solr\apache-solr-3.4.0\example\solr

2012-05-21 18:45
浏览 976
评论(0)
分类:互联网

hadoop shell操作与程式开发

博客分类：

hadoop

见附件~

2012-05-09 11:24
浏览 775
评论(0)
分类:开源软件

MapReduce中的Shuffle和Sort分析

博客分类：

hadoop

MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司，而Google 的灵感则来自于函数式编程语言，如LISP，Scheme，ML 等。 MapReduce 框架的核心 ...

2012-05-08 15:01
浏览 3171
评论(1)
分类:开源软件

Hadoop平台在云计算上的应用

博客分类：

hadoop

1　Hadoop 介绍 Hadoop是由Apache 开源组织的一个分布式计算框架，可以在大量廉价的硬件设备组成的集群上运行应用程序，为应用程序提供了一组稳定可靠的接口，旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop 的主要优点[3] 有：扩容能力强、成本低廉、效率高、高可靠性、免费开源及良好的可移植性。 Hadoop 集群是典型的Master/Slaves 结构，NameNode与JobTracker 为Master，DataNodes 与TaskTrackers 为Slaves。NameNode 与DataNodes 负责完成HDFS 的工作 ...

2012-05-07 17:44
浏览 959
评论(0)
分类:开源软件

Hadoop介绍及运行wordcount实例

博客分类：

hadoop

Hadoop 是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。 HDFS 是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M），其原理采用Master/Slave 结构。NameNode 维护集群内的元数据，对外提供创建、打开、删除和重命名文件或目录的功能。DataNode 存储数据，并提负责处理数据的读写请求。DataNode定期向NameNode 上 ...

2012-05-05 14:04
浏览 2082
评论(0)
分类:开源软件

lucene检索运算符

博客分类：

搜索引擎(lucene/solr)

lucene检索运算符: 1. “:” 指定字段查指定值，如返回所有值*:*2. “?” 表示单个任意字符的通配3. “*” 表示多个任意字符的通配（不能在检索的项开始使用*或者?符号）4. “~” 表示模糊检索，如检索拼写类似于”roam”的项这样写：roam~将找到形如foam和roams的单词；roam~0.8，检索返回相似度在0.8以上的记录。5. 邻近检索，如检索相隔10个单词的”apache”和”jakarta”，”jakarta apache”~106. “^” 控制相关度检索，如检索jakarta apache，同时希望去让”jakarta”的相关度更加好，那么在其后加上” ...

2012-05-05 13:05
浏览 1110
评论(0)
分类:开源软件

Ubuntu11.10下安装Hadoop环境(单机伪分布式)

博客分类：

hadoop

安装ssh

2012-04-28 09:47
浏览 1209
评论(0)
分类:互联网

网站日志代码

博客分类：

网页相关

做位一名SEO工作者，网站日志和对日志代码的了解是比较基础的，很多时候我们会从中间发现或分析一些现象，这对于网站的发展进度和以后的操作流程，乃至网站下一步情况的预测，都是非常有帮助的，下面我们将网站日志及其中的HTTP状态码说明下，希望能解决一些在SEO工作中遇见的常见问题。网站日志是什么？网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件。网站日志有什么作用？通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面，是否访问成功。对于Seoer而言，网站 ...

2012-03-21 11:20
浏览 896
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

解析网页利器组合（正则、jsoup、beanshell、dozer）资源

Java正则表达式(二)

Java正则表达式(一)

Java正则表达式详解

SOLR搭建企业搜索平台

solr理论

solr中Schema.xml和solrconfig.xml分析

solr部署

hadoop shell操作与程式开发

MapReduce中的Shuffle和Sort分析

Hadoop平台在云计算上的应用

Hadoop介绍及运行wordcount实例

lucene检索运算符

Ubuntu11.10下安装Hadoop环境(单机伪分布式)

网站日志代码

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>