`
lianshisheng
  • 浏览: 27601 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
○一个简单的文本邮件 我们的第一个例子是利用你本地的邮件服务器向"John Doe"发送一个基本邮件信息。 import org.apache.commons.mail.SimpleEmail; ...   SimpleEmail email = new SimpleEmail();   email.setHostName("mail.myserver.com");   email.addTo("jdoe@somewhere.org", "John Doe");   email.setFrom(&quo ...
[关键词]:ant,zip,unzip,Apache,压缩,解压,中文乱码,ZipEntry     先前写了一篇blog《使用org.apache.tools.zip实现zip压缩和解压》 ,现对它进行了改进:找出了几个Bug,修改了部分代码,增加了注释,添加了图形界面,打了个可执行包,双就可以运行了。源代码如下,希望大家多提意见。MyZip.java: package myzip; import java.io.*; import javax.swing.*; import java.awt.*; import java.awt.event.*; import myzip.Ant ...
一、系统架构  总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引,两者都使用索引中的字 ...
开源搜索引擎聚合开源搜索引擎工具包1.Lucene (http://lucene.apache.org/)Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lucene具有天生的跨平台性,但仍被改编为许多其他语言的版本:Perl、Python、C++、.Net等。同其他开源项目一样,Lucen ...
下载:可以去Apache的官方网页http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 下载最新版的Nutch,目前最新版是nutch-0.9,65M大小。解压缩,进入bin/就能用。安装辅助软件(运行环境):①JDK,Nutch是用java写的一个开源项目,所以要使它正常运行必须安装JDK(也为了能修改nutch),Java 1.4.x以上版本,设置环境变量NUTCH_JAVA_HOME为java虚拟机的安装目录。②Tomcat,还必须安装Apache's Tomcat 4.x 以上版本。最后,想得到较好的运行效果,必须有至少1G的剩余空间和一个 ...
  package com; import java.util.*; import java.lang.Runtime.*; import java.io.*; public class UnRarTest { public static void main(String[] args) throws Exception { Scanner in=new Scanner(System.in); System.out.println("输入你要解压的文件(包括路径,后缀)"); String filename=in.nextLine ...
Lucene结果分页Lucene结果分页一 ,Hits对象是搜索结果的集合 主要有下面几个方法   在session中保留indexreader对象和hit对象,翻页的时候提取内容 不使用session,每次都简单处理为重新查询 lucene推荐先使用第二个办法,即每次都重 ...
1)Apache的首页    http://lucene.apache.org/java/docs/index.html    里面包含的file format应该是开始了解lucene的必读内容,Query Syntax描述输入关键词得语法。当然,结合程序代码一起看会效果更好。2)lucene 倒排索引的原理    http://www.zhangl ...
1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索,类似概念在SQL中就是select * from Table where a like '%query%' or b like '%query%'。  Lucene.net中的单个字段查询大家都比较熟悉,这里对字段content进行搜索 Query query = QueryParser.Parse(querystr,"content",new ChineseAnalyzer()); Hits hits = searcher.Search(query);   对多个字段查询用到一个MultiFieldQu ...
Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram. 这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多.   Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram.  这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多.  经过认真研究了Lucene的Analysis包,我写了一个TjuChineseAnalyzer,效果不错.  简要介绍一下:  TjuChineseAnlyzer的功能强大,在中文分词方面使用JNI ...
文章来源:http://blog.csdn.net/xiaodaoxiao ... /09/10/1203959.aspx   最近要做一个站内的全文检索功能,主要是针对clob字段的,于是去网上找了点lucene的资料,现在新版本的是2.0.0,网上的例子多是1.4.3的,有些方法已经废弃了,搞了n久终于把2.0.0的功能实现了,呵呵,下面把实现的代码贴出来,实现了索引的创建、检索和删除功能,并可以从检索结果去查询数据库~  // 创建索引   public void indexFiles() {     // 创建索引文件存放路径     File indexDir = new Fi ...
用 lucene 建立索引不可能每次都重新开始建立,而是按照新增加的记录,一次次的递增建立索引的IndexWriter类,有三个参数 IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);其中第三个参数是bool型的,指定它可以确定是增量索引,还是重建索引.对于从数据库中读取的记录,譬如要为文章建立索引,我们可以记录文章的id号,然后下次再次建立索引的时候读取存下的id号,从此id后往下继续增加索引,逻辑如下.建立增量索引,主要代码如下 public void createIndex(String ...
慢慢开始读Lucene源代码,首先就从高亮显示开始吧,因为最近才看过这个,而且好像是新版本后来加上的。我的方案:从实例逐一解决源代码。需要分析的实例代码: package org.apache.lucene.search.highlight; import java.io.IOException; import java.io.StringReader; import junit.framework.TestCase; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.ana ...
本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。 <!--START RESERVED FOR FUTURE USE INCLUDE FILES--><!-- include java script once we verify teams wants to use this and it will work on dbcs and cyrillic characters --><!--END RESERVED FOR FUTURE USE INCLUDE FILES--> Luce ...
Global site tag (gtag.js) - Google Analytics