Solr安装及集成javaWeb -

zihai367

浏览: 230215 次
性别:
来自: 北京

最近访客更多访客>>

soulliu

hbzht

u010469169

bronya

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Solr安装及集成javaWeb

博客分类：

solr

solr 集成javaWeb

1.下载solr-4.7.1

http://www.apache.org/dyn/closer.cgi/lucene/solr/4.7.1

环境需求：java 1.6版本以上；solr运行需要java serverlet 容器，默认使用jetty，或者tomcat，jboss等等。

2.Tomcat部署solr：

1. 安装好jdk 1.6以上（我用是jdk 1.7.0_15），安装好tomcat（我用是apache-tomcat-7.0.6），并配置环境变量。

2. 将解压包中的solr-4.7.1/dist/solr-4.7.1.war复制到tomcat_dir/webapps/目录，并命名为solr.war。

3. 将solr-4.7.1/example/lib/ext/目录下的jar文件复制到tomcat/lib目录下，将solr-4.7.1/example/resources/下的log4j.properties文件复制到tomcat_dir/lib目录下;

切把 solr-4.7.1/example/solr，复制到tomcat_dir/bin下。

4.修改tomcat_dir/conf/server.xml

1

2

3

4

 <Connector port="8080" protocol="HTTP/1.1"

               connectionTimeout="20000"

               redirectPort="8443" 

               URIEncoding="UTF-8" />

5.创建solr.xml，存放在路径：tomcat/conf/Catalina/localhost/solr.xml，内容：

1

2

3

4

<Context path="/solr" docBase="F:\Tomcat 7.0\webapps\solr.war"

         debug="0" crossContext="true">

  <Environment name="solr/home" type="java.lang.String" value="FF:\Tomcat 7.0\bin\solr\" override="true" />

</Context>

注意：上面的docBase和value路径中不能存在中文字符，否则会出现404错误。

此时若安装及配置都正确，在浏览器中输入：http://127.0.0.1:9000/solr/，会出现Solr的管理界面：

6.将F:\Tomcat 7.0\webapps下的solr.war包，启动项目解压；然后再添加几个jar包：

solr-4.7.1\dist\solr-dataimporthandler-4.7.1.jar;

solr-4.7.1\dist\solr-dataimporthandler-extras-4.7.1.jar;

还要加载数据库驱动包：mysql-connector-java-3.1.13-bin.jar

7、在F:\Tomcat 7.0\bin\solr\collection1\conf 下的solrconfig.xml增加以下数据库配置：

1

2

3

4

5

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">     

   <lst name="defaults">     

     <str name="config">data-config.xml</str>     

   </lst>     

  </requestHandler>

8.将tomcat\bin\solr\collection1\conf下增加data-config.xml文件，内容如下：

<dataConfig>  

    <dataSource type="JdbcDataSource"  

   driver="com.mysql.jdbc.Driver"  

   url="jdbc:mysql://192.168.1.221:3306/tmsdb"  

   user="root"  

   password="123456"/>  

    <document name="content">  

        <entity name="node" query="select id,author,title,content from solrdb">  

            <field column="id" name="id" />  

            <field column="author" name="author" />  

            <field column="title" name="title" />  

            <field column="content" name="content" />

        </entity>  

    </document>  

</dataConfig>

9.增加中文分词器，ik-analyzer的配置如下：

①目前的中文分词主要有两种
1，基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器，例如smartcn等。（不支持自定义扩展词库）
2，基于正向迭代最细粒度切分算法（正向最大匹配并且最细分词）例如IK，庖丁等（支持自定义扩展词库）
安装分词前，可以去下载IK的分词包：

1	`IK-Analyzer-4.7.1-0.0.1-SNAPSHOT.jar`

下载完毕后，将此包放进tomcat\solr的\WEB-INF\lib下面：tomcat\webapps\solr\WEB-INF\lib 。

下面需要在solr的schemal.xml进行分词器注册:

<!--  配置IK分词器 -->  

    <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">  

      <analyzer type="index">  

      <!--  分词-->  

        <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>  

         <!--   禁用词过滤根据情况使用-->  

        <!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->  

      </analyzer>  

      <analyzer type="query">  

       <!--  分词-->  

        <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>  

        <!--   禁用词过滤根据情况使用-->  

        <!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->  

      </analyzer>  

    </fieldType>

最后还得配置一个引用字段就OK了

1	`<field` `name="ik"` `type="text_ik"` `indexed="true"` `stored="true"` `multiValued="true"/>`

②它的安装部署十分简单，将IKAnalyzer2012.jar部署亍项目的lib目录中；IKAnalyzer.cfg.xml不stopword.dic文件放置在class根目录（对于web项目，通常是WEB-I NF/classes目彔，同hibernate、log4j等配置文件相同）下即可；然后配置solr4.7中schema.xml配置解析器：

1

2

3

4

5

6

7

<schema name="example" version="1.1"> 

    …… 

    <fieldType name="text" class="solr.TextField"> 

        <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> 

    </fieldType>

    …… 

</schema>

10. solr schema.xml配置总结：

schema.xml 在solr/conf/目录下，类似于数据表配置文件。

为了改进性能，可以采取以下几种措施：

①. 将所有只用于搜索的，而不需要作为查询结果的field（特别是一些比较大的field）的stored设置为false。

②. 将不需要被用于搜索的，而只是作为查询结果返回的field的indexed设置为false。

③. 删除所有不必要的copyField声明，根据需要决定是否进行存储。

④. 为了索引字段的最小化和搜索的效率，将所有的 text fields的index都设置成false，然后使用copyField将他们都复制到一个总的 text field上，然后对他进行搜索。

⑤. 使用尽可能高的Log输出等级，减少日志量。可以在solr/admin 中的 LOGGING 进行设置。

特珠说明：

1. 高亮是基于分词的，所有存储需要高亮显示的字段一定要分词（text）才能高亮显示。

2. 排序字段是不能当查询过滤的条件。

文本主要配置项：

①. field 类型定义

重点是中文分词的添加

②. field 各属性定义

name type类型 indexed是否建立索引 stored是否存储 required 是否必填项 multiValued多值存储

③. 唯一key

文档的唯一标识，必须填写这个field（除非该field被标记required="false"），否则solr建立索引报错。

④. 默认搜索字段 field

如果搜索参数中没有指定具体的field，那么这个做为默认的域。

⑤. 搜索参数短语间逻辑

配置搜索参数短语间的逻辑，可以是"AND|OR"。

备注： AND是交集，OR是并集

⑥. 复制字段

将多个字段的值复制至一个字段中，如果被复制的字段都设置为stored，那个这个字段务必不要设置成stored=true

⑦. 自定义评分器

SolrSimilarity 是继承 DefaultSimilarity的子类，或者实现评分器接口的类。

解析：multiValued：是否包含多个值，如果要使用后面的copyField将其他字段放入默认搜索中就必须允许多指，否则会报：multiple values encountered for non multiValued copy field content。

defaultSearchField配置默认搜索索引，copyField可以将 title、author字段添加至content默认搜索中

1

2

3

4

5

<uniqueKey>id</uniqueKey>  

 <defaultSearchField>content</defaultSearchField>  

 <solrQueryParser defaultOperator="OR"/>  

<copyField source="title" dest="content"/>  

<copyField source="author" dest="content"/>

分享到：

java调用solr4.10 代码 | 请使用支持 JDBC 4.0 的 sqljdbc4.jar 类库

2015-04-21 15:53
浏览 627
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr安装及集成javaWeb

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr安装及集成javaWeb

评论

发表评论

相关推荐

利用solrJ进行检索

java调用solr4.10 代码

solr连接数据库配置

solr详解1.

java.lang.UnsupportedClassVersionError: org/apache/solr/servlet/SolrDispatchFilt

[solr] - 环境搭建

在tomcat上面安装solr4.8.0全过程

apache lucene solr 官网历史版本下载地址

最近访客更多访客>>