`
qindongliang1922
  • 浏览: 2172023 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117101
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125444
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59543
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71029
社区版块
存档分类
最新评论

lucene/solr去重

阅读更多


什么是facet呢?参考wiki
比如在taobao或者京东买东西的时候,搜索手机,出现好多品牌、价格区间等分类信息,这就是分组。
也就是文档的公共属性,这可以用来做分组。

一、分组查询facet
在solr中需要开启facet=true功能即可使用,在facet功能中的各个字段如下所示:

1、q字段就类似于我们输入的搜索信息,也可以加上fq的过滤

q=title:手机


2、facet.query会使得搜索结果显示的数字比较少,

facet.query=price:[50 TO *]


3、facet.field是需要分组的公共属性,比如厂家、品牌等字段

facet.field=brand&facet.field=factory


4、facet.date用来分组时间字段,可以设置起止时间和时间的跨度

facet.date=ptime

facet.date.start=2010-1-1T0:0:0Z

facet.date.end=NOW

facet.date.gap=%2B1YEAR

gap设置的时候可以用+-/等符号,但是需要转义才能用。


5、facet.range用来分组数值字段,比如设置最大最小的价格等

facet.range=status

f.status.facet.range.start=0

f.status.facet.range.end=20

f.status.facet.range.gap=5



二、去重查询
facet vs group 区别:
facet的查询结果主要是分组信息:有什么分组,每个分组包括多少记录;但是分组中有哪些数据是不可知道的,只有进一步搜索。
group则类似于关系数据库的group by,可以用于一个或者几个字段去重、显示一个group的前几条记录等。
语法也类似于facet吧,参照wiki

注意:group适用于单个shard,如果使用solrcloud多shard,则需要保证被group的字段能分配到一个shard。
The Grouping feature only works if groups are in the same shard. You must use the custom sharding feature to use the Grouping feature.

来自:http://sling2007.blog.163.com/blog/static/84732713201352023820290/
分享到:
评论

相关推荐

    Solr分组统计

    同时,模糊查询和精确查询是Solr查询语言(Lucene Query Parser Syntax)的一部分,它们分别用于处理用户可能输入的不完全匹配或完全匹配的关键词。 模糊查询允许用户使用通配符或近似搜索来找到相似或拼写相近的...

    基于Lucene4.6+Solr4.6+S2SH实战开发垂直搜索引擎

    对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。 课程的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络...

    Lucene4.6+Solr4.6实战开发垂直搜索引擎视频课程

    13.网页去重(1) 14.网页去重(2) 15.网页去重(3) 16.网页去重(4) 17.lucene4.6快速搭建 18.lucene4.6索引的相关操作 19.lucene4.6的各种Query(1) 20.lucene4.6的各种Query(2) 21.lucene4.6的各种Query(3) 22.solr4.6...

    解密搜索引擎技术实战Lucene&Java精华版(第3版)源码

    关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随书光盘文件有1G,压缩后有>400MB, 我单个文件的权限是80MB 故分为下面6个包上传: 解密搜索引擎技术实战Lucene&Java精华版(1) 解密搜索引擎技术实战Lucene&...

    解密搜索引擎技术实战Lucene&Java精华版(2)

    关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随书光盘文件有1G,压缩后有>400MB, 我单个文件的权限是80MB 故分为下面6个包上传: 解密搜索引擎技术实战Lucene&Java精华版(1) 解密搜索引擎技术实战Lucene&...

    解密搜索引擎技术实战Lucene&Java精华版(第3版)源码(4)-补第6章

    关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随书光盘文件有1G,压缩后有>400MB, 我单个文件的权限是80MB 故分为下面6个包上传: 解密搜索引擎技术实战Lucene&Java精华版(第3版)源码(1) 解密搜索引擎技术...

    基于Solr的搜索引擎研究与实现

    而Solr是基于Lucene的开源搜索服务器,它扩展了Lucene的功能,提供了更高级的特性,如分布式搜索、多字段排序、缓存优化等,同时简化了部署和维护。 本文深入探讨了搜索引擎的核心技术,包括爬虫技术,它负责从...

    解密搜索引擎技术实战Lucene&Java精华版(5)

    关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随书光盘文件有1G,压缩后有>400MB, 我单个文件的权限是80MB 故分为下面6个包上传: 解密搜索引擎技术实战Lucene&Java精华版(1) 解密搜索引擎技术实战Lucene&...

    solr-6.4.1 安装包.zip

    Solr是Apache软件基金会开发的一款高性能、全文搜索引擎,它基于Lucene库,广泛应用于网站搜索、数据挖掘和信息检索等领域。在本安装包"solr-6.4.1"中,用户可以找到完整的Solr 6.4.1版本,以便在自己的服务器或环境...

    解密搜索引擎技术实战Lucene&Java精华版(第3版)源码(6)-libp2

    关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随书光盘文件有1G,压缩后有>400MB, 我单个文件的权限是80MB 故分为下面6个包上传: 解密搜索引擎技术实战Lucene&Java精华版(第3版)源码(1) 解密搜索引擎技术...

    解密搜索引擎技术实战Lucene&Java精华版(第3版)源码(3)-补第5章p2

    关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随书光盘文件有1G,压缩后有>400MB, 我单个文件的权限是80MB 故分为下面6个包上传: 解密搜索引擎技术实战Lucene&Java精华版(第3版)源码(1) 解密搜索引擎技术...

    solr in action

    - **Solr** 是一个高性能、基于Lucene的全文检索服务器。它提供了企业级的搜索功能,并且能够支持大量的文档集合。 - **重要性**:Solr在大数据时代扮演着至关重要的角色,尤其是在那些对搜索性能要求极高的场景中。...

    mmseg4j完美适配solr5.2.1

    mmseg4j是一款针对中文的高效分词库,而Solr作为Apache Lucene项目的一部分,是一个强大的全文搜索引擎服务器。当这两者结合时,可以为企业的信息检索系统提供强大的支持。然而,随着Solr版本的不断更新,如何使...

    跟益达学Solr5之批量索引JSON数据

    Solr5是Apache Solr的一个版本,它基于Lucene库,提供了一个高度可扩展和高性能的搜索平台。Solr支持多种数据源的索引,包括JSON,XML,CSV等,使得在分布式环境中处理大规模数据变得简单易行。 二、JSON数据格式 ...

    毕业设计-基于mysql和solr采用phantomjs实现网页内容爬虫

    接下来,Solr是Apache Lucene项目下的一个开源全文搜索引擎。在本项目中,Solr被用来对存储在MySQL中的数据进行索引和搜索。Solr具有强大的文本分析能力,可以对中文进行分词,支持多种查询语法,提供高效的全文检索...

    使用C#开发搜索引擎PPT

    本PPT专注于讲解如何利用C#编程语言,结合LUCENE.NET和SOLR来构建一个强大的搜索引擎系统。下面我们将深入探讨这个主题中的关键知识点。 **1. LUCENE.NET** LUCENE.NET是Apache Lucene的.NET版本,是一个高性能、...

    基于Ruby+Java搜索引擎原理与实现

    2. Solr和Elasticsearch:基于Lucene,Solr和Elasticsearch是两个流行的Java搜索引擎平台,提供分布式、集群化的搜索解决方案,适用于大型数据集的处理。 3. 并发处理:Java的多线程和并发API使得处理大量数据变得...

    搜索引擎书籍

    你还将了解到如何使用Lucene与其他技术(如Solr或Elasticsearch)集成,以构建更强大的企业级搜索解决方案。 总之,《搜索引擎书籍》是Lucene学习者和搜索引擎开发者的一份宝贵资源,它不仅介绍了搜索引擎的基本...

    开源搜索网站开源搜索网站

    2. **Solr**:Apache Solr是另一个由Apache软件基金会开发的全文搜索平台,同样基于Lucene。Solr强调的是集群部署和高可用性,适合大规模数据的搜索应用。 3. **Xapian**:Xapian是一个轻量级的搜索库,适用于...

    JAVA搜索引擎、网络爬虫

    Java搜索引擎的优点在于它的稳定性和可扩展性,常见的Java搜索引擎框架有Lucene、Solr和Elasticsearch等。它们提供了丰富的API和功能,支持复杂查询、分布式搜索、实时索引等。 **二、Java网络爬虫** Java网络爬虫...

Global site tag (gtag.js) - Google Analytics