`
huanglz19871030
  • 浏览: 241955 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表
由于项目需要使用java正则、jsoup、dozer、beanshell组合用来解析网页,现把相关资源整理记录:   dozer : 基于beanUtils实现的对象转化工具,实现各种类型之间对象的深层次复制。 beanshell : 一种完全符合java语法的松散类型的脚本语言,可以用来完成简单或复杂对象的逻辑判断。 dozer和beanshell之前接触的少,需要的话网上找资料,附件为入门word。   jsoup资源 : http://www.open-open.com/jsoup/selector-syntax.htm,语法类似jquery,基于document, ...
Matcher类:   使用Matcher类,最重要的一个概念必须清楚:组(Group) ,在正则表达式中  ()定义了一个组,由于一个正则表达式可以包含很多的组,所以下面先说说怎么划分组的,  以及这些组和组的下标怎么对应的.  下面我们看看一个小例子,来说明这个问题  引用 \w(\d\d)(\w+) 这个正则表达式有三个组:  整个\w(\d\d)(\w+) 是第0组 group(0)  (\d\d)是第1组 group(1)  (\w+)是第2组 group(2)  我们看看和正则表达式匹配的一个字符串x99S ...
正则表达式在处理文本方面用处非常大,最早像在Perl和awk语言中,提供了这种机制,Java在Java 2中也增加了正则表达式这个包java.util.regex。这个包为用户使用正则表达式,提供了易用而全面的支持。我的研究方向是web挖掘。从网页中提取内容,处理文本,当然需要正则表达式这个强大的工具了。  一、首先我们看一下怎么使用正则表达式的一个例子:  A Matcher examines the results of applying a pattern.  我们希望从这句话中找到所有开头为a的单词。  当然这只是一个简单的例子,你可以使用String提供的spl ...
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来 ...
一、SOLR搭建企业搜索平台--MultiCore Solr Multicore 是 solr 1.3 的新特性。其目的一个solr实例,可以有多个搜索应用。 我们知道你既可以把不同类型的数据放到同一index中,也可以使用分开的多indexes。基于这一点,你只需知道如何使用多 indexes(实际上就是运行Solr的多实例)。尽管如此,为每一个类型添加一个完整的Solr实例会显得太臃肿庞大。Solr1.3引入了Solr core的概念,该方案使用一个Solr实例管理多个indexes,这样就有热点core(hot core)的重读(reloading)与交换(swap,通常是读index与写 ...
1、 solr基础 因为 Solr 包装并扩展了 Lucene,所以它们使用很多相同的术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。 在 Solr 和 Lucene 中,使用一个或多个 Document 来构建索引。Document 包括一个或多个 Field。Field 包括名称、内容以及告诉 Solr 如何处理内容的元数据。例如,Field 可以包含字符串、数字、布尔值或者日期,也可以包含你想添加的任何类型,只需用在solr的 ...
一、字段配置(schema) schema.xml位于solr/conf/目录下,类似于数据表配置文件, 定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。 1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。 name:就是这个FieldType的名称。 class:指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为。   [xhtml] view plaincopy
1,从官方网站下载solr:apache-solr-3.4.0.zip 2,解压已经下载的文件后如下所示 Xml代码    E:\jar\solr\apache-solr-3.4.0\example\solr  
见附件~
         MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。          MapReduce 框架的核心 ...
  1 Hadoop 介绍       Hadoop是由Apache 开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,为应用程序提供了一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop 的主要优点[3] 有:扩容能力强、成本低廉、效率高、高可靠性、免费开源及良好的可移植性。       Hadoop 集群是典型的Master/Slaves 结构,NameNode与JobTracker 为Master,DataNodes 与TaskTrackers 为Slaves。NameNode 与DataNodes 负责完成HDFS 的工作 ...
     Hadoop 是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。      HDFS 是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理采用Master/Slave 结构。NameNode 维护集群内的元数据,对外提供创建、打开、删除和重命名文件或目录的功能。DataNode 存储数据,并提负责处理数据的读写请求。DataNode定期向NameNode 上 ...
lucene检索运算符: 1. “:” 指定字段查指定值,如返回所有值*:*2. “?” 表示单个任意字符的通配3. “*” 表示多个任意字符的通配(不能在检索的项开始使用*或者?符号)4. “~” 表示模糊检索,如检索拼写类似于”roam”的项这样写:roam~将找到形如foam和roams的单词;roam~0.8,检索返回相似度在0.8以上的记录。5. 邻近检索,如检索相隔10个单词的”apache”和”jakarta”,”jakarta apache”~106. “^” 控制相关度检索,如检索jakarta apache,同时希望去让”jakarta”的相关度更加好,那么在其后加上” ...
安装ssh
  做位一名SEO工作者,网站日志和对日志代码的了解是比较基础的,很多时候我们会从中间发现或分析一些现象,这对于网站的发展进度和以后的操作流 程,乃至网站下一步情况的预测,都是非常有帮助的,下面我们将网站日志及其中的HTTP状态码说明下,希望能解决一些在SEO工作中遇见的常见问题。 网站日志是什么? 网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件。 网站日志有什么作用? 通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。 对于Seoer而言,网站 ...
Global site tag (gtag.js) - Google Analytics