`

Solr相关知识点串讲

    博客分类:
  • solr
 
阅读更多
Solr是Apache Lucene的一个子项目。Lucene为全文搜索功能提供了完备的API,但它只作为一个API库存在,而不能直接用于搜索。因此,Solr基于Lucene构建了一个完整的搜索引擎,它可以为搜索引擎添加文档,对文档内容进行分析,并为用户提供搜索功能,在此基础上提供了一个扩展功能,如hit highline, suggetion等。

一、概述

  (一)基础内容
     1、Solr的版本号与Lucene的版本号保持一直,直到2014年7月,最新版本号为4.9.0。
     2、Solr提供了一个example,可以简单快速的搭建起搜索环境。参见http://blog.csdn.net/jediael_lu/article/details/36419497
   (二)配置文件
    Solr的关键配置文件有以下三个:
    solr.xml—Defines properties related to administration, logging, sharding, and SolrCloud
    solrconfig.xml—Defines the main settings for a specific Solr core
    schema.xml—Defines the structure of your index, including fields and field types
   启动搜索引擎时,服务器按照以下顺序导入配置:
   (1)从全局java系统属性中查看solr.solr.home,一般定义为:$SOLR_INSTALL/example/solr/。
   (2)搜索上述目录中哪个子目录中包含有 core.properties,每个 core.properties对应一个core。
   (3)从 core.properties中找出name属性,其值作为一个core。
   (4)查找这个core下面的conf子目录,找到solrconfig.xml与schema.xml

  

1、solr.xml
    与整个搜索引擎相关的配置。
2、solrconfig.xml。
    与某个core相关的主要配置,如定义updatehandler用于索引文件,requesthandler用于搜索内容等。



3、schema.xml
    定义了某类型文档的索引格式。
4、core.properties
    记录了一个core的基本信息,除一个name为必备属性外,其余均为可选



二、索引
    索引,是将文档中的内容经过分析后,形成一个Term---Document的映射,并将其写入索引文件的过程,即说明哪些文档中包括某个词汇。
(一)向搜索引擎中提交文档的方法
1、命令行方式
使用example程序中提供的post.jar或者post.sh提供文档,它支持XML/JSON/CSV三种文件格式。
如java -jar post.jar *.xml
但本质上,它只是将solr提供的API进行了封装,最核心的类为SimplePostTool,此类调用了SolrJ的接口。
2、SolrJ
使用solr提供的API,进行文档的添加。
3、其它第三方工具
(1)Data Import Handler (DIH)
将外部数据导入Solr,如网站、关系型数据库等内容。
(2)ExtractingRequestHandler, aka Solr Cell
对Tika进行了封装,可用于导入富文本内容,如pdf,office等
(3)Nutch
抓取网页并将其导入solr。



三、分析



四、索引



五、扩展功能

转自:http://blog.csdn.net/jediael_lu/article/details/37813295
分享到:
评论

相关推荐

    solr基础知识介绍

    3. solr是什么 2 3.1 solr的功能 3 3.2 solr术语 3 3.2.1 Auto-warming 3 3.2.2 Facet 3 3.3.3 Document 6 3.3.4 Field 6 3.3.5 IndexWriter 6 3.3.6 IndexSearcher 6 3.3.7 Directory 6 3.3.8 Segment 7 3.3.9 ...

    solr.war包solr.war包solr.war包solr.war包solr.war包

    solr.warsolr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包...

    java进阶Solr从基础到实战

    在本套课程中,我们将全面的讲解Solr,从Solr基础到Solr高级,再到项目实战,基本上涵盖了Solr中所有的知识点。 主讲内容 章节一:Solr基础(上) 1. 环境搭建 2. 核心讲解 3. 数据导入 4. 各种中文分析器 章节二:...

    solr知识总结

    Solr 是一个开源的企业级搜索服务器,底层使用易于扩展和修改的Java 来实现。服务 器通信使用标准的HTTP 和XML,所以如果使用Solr 了解Java 技术会有用却不是必须的要 求。 Solr 主要特性有:强大的全文检索功能,...

    solr服务器_solr_

    solr

    solr

    solr

    solr文档solr文档

    solr文档

    Solr权威指南-上卷

    拓展知识中首先讲解了Solr的一些比较生僻的知识点,如伪域、多语种索引支持、安全认证,以及Solr 6.x中的SQL接口和Streaming表达式等;然后讲解了Solr与MapReduce、HDFS、Hbase、Kafka、Flume、Storm、Spark等...

    solr_solr_

    solr manageschema 配置文件,增加了分词器后的配置文件

    solr搭建相关资源

    solr环境搭建的相关资料,包括solr4.10.3的项目war包以及分词器所需的jar包

    solr技术文solr技术文

    solr技术文solr技术文solr技术文

    Linux上Solr的启动方式

    使用Solr内置的Jetty服务器启动Solr (1)借助X Shell上传solr的安装包到/usr/local/目录下,使用 tar -zxvf命令进行解压.  (2)使用内置的Jetty来启动Solr服务器只需要在example目录下,执行start.jar程序即可,...

    solr43相关jar包

    solr4.3相关的jar包,包含httpclient-4.3.4.jar、httpcore-4.3.2.jar、httpmime-4.3.1.jar、IKAnalyzer2012.jar、slf4j-api-1.6.6.jar、slf4j-log4j12-1.6.6.jar、solr-solrj-4.3.0.jar、zookeeper-3.4.5.jar等

    Solr定时更新Solr定时更新

    Solr定时更新Solr定时更新

    Solr基础知识

    本文来自于简书,本文是一篇基础文章,详细介绍了Solr是什么,及涉及到的层面。 简单来说Solr是基于Lucene的高性能的,开源的Java企业搜索服务器。Solr可以看作一个Web app,运行在tomcat或Jetty这类HTTP服务器上, ...

    solr4.7服务搭建

    如何使用solr搭建服务器

    solr5.4.0完整包

    Solr 依存于Lucene,因为Solr底层的核心技术是使用Lucene 来实现的,Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注于搜索底层的...

    Apache Solr(solr-8.11.1.tgz)

    Apache Solr(solr-8.11.1.tgz)Binary releases 二进制版本

    Solr学习笔记。。

    Solr笔记,Solr笔记,Solr笔记,Solr笔记,Solr笔记,Solr笔记,Solr笔记,Solr笔记,Solr笔记,Solr笔记,

    solr的简单运用

    solr

Global site tag (gtag.js) - Google Analytics