hive查询相关

381573578

浏览: 73859 次
性别:
来自: 北京

最近访客更多访客>>

liuyang9005

cy_001

mwltodie

hello请输入用户名

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

一、嵌套查询统计数量去重问题

描述：如果子查询中对统计的字段已经去重，外面一层就不能同时有distinct（目标统计字段）和group by操作，否则查询结果不是统计的数量而是统计的字段数据。

如：

select

platform_id, count(distinct user_id) uv_count

from

(
- select
  - platform_id, user_id, sum(pv) pv
  from depot_user_browse
- where day = '20140201'
  - and (
    - platform_id = 12
    - or platform_id = 6
    - or platform_id = 11
    - or platform_id = 14
    - )
    and user_id is not null
  group by platform_id,user_id
) a

group by platform_id

limit 10;

查询结果：

6 10000242
6 10000332
6 10000468
6 10001799
6 10001809
6 10002210
6 10002753
6 10003070
6 10003815
6 10004929

解释：该查询中里面嵌套的一层已经group by user_id所以user_id不会有重复，最外层再distinct user_id同时group by platform_id时，查询的结果就成了platform_id和user_id而不是count出来的数量，如果distinct和group by只有其中一个操作就不会有这种现象。

解决办法：将count(distinct user_id) 改为count(user_id).

二、多次嵌套查询聚合问题

描述：如果子查询嵌套的层次过多，同时查询的数据量较大，在自由分配的情况下数据会被分到多个reducers中分别计算，计算完成后不会再进行聚合，而是把每个reduce算完的结果查询出来。

如：

查询结果：

select a.userid,sum(a.pv) pv

from(
- select c.userid,c.bookid,c.url,count(1) pv from(
  - select userid,bookid,url
    - from log
    - where day='20140201'
    - and logtype='access'
    - and project='android'
    - and actionname='read'
      - and (apiCode= or apiCode ='100')
- ) c
  - group by c.userid,c.bookid,c.url
)a where a.userid = '21057243' group by a.userid;

查询结果：

21057243 5
21057243 16
21057243 5
21057243 16
21057243 8

查询时分配的mappers和reducers：

number of mappers: 635; number of reducers: 6

解释：该查询的最外层已经有group by userid,按正常逻辑最后查询结果应该是一条数据，但是在查询过程中分配了6个reducers最后就把6个分别查出来，很容易导致最后统计错误。

解决方法：在查询时将reducers设为1，即set mapred.reduce.tasks=1;

分享到：

oracle 相关 | shell 时间处理

2014-05-21 15:12
浏览 702
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

cmd-bat-批处理-脚本-Progress bar 1.zip: cmd-bat-批处理-脚本-Progress bar 1.zip

小红书2024年度Java编程开发面试题及参考答案-超详细解析: 该资源是小红书 2024 年度Java 编程开发面试题，内容非常详细，适合应届毕业生和准备寻求更高发展的Java工程师，希望给你们带来帮助。

RISC-V指令集五级流水线CPU设计与验证：基于Verilog的实现及应用 CPU设计: 内容概要：本文详细介绍了基于RISC-V指令集的五级流水线CPU设计及其验证过程。首先，文章阐述了RISC-V指令集的特点及其在CPU设计中的优势，接着深入解析了每个流水线阶段（取指、解码、执行、访存、写回）的Verilog源代码实现。此外，提供了汇编验证代码用于测试CPU的功能，并附带详细的说明文档和PPT，确保设计的完整性和易理解性。最后，在Vivado平台上进行了全面的仿真和实际硬件测试，验证了设计的正确性和性能。适合人群：从事嵌入式系统设计、CPU架构研究及相关领域的工程师和技术人员。使用场景及目标：①理解和掌握RISC-V指令集在五级流水线CPU设计中的应用；②学习Verilog语言在CPU硬件设计中的具体实现方法；③通过汇编验证代码测试CPU功能，确保设计的可靠性。其他说明：本文不仅提供了完整的Verilog源代码和汇编验证代码，还包括详细的说明文档和PPT，有助于读者更好地理解和实践CPU设计过程。

基于51单片机与HC-05蓝牙模块的Android手机通信程序: 本程序实现了51单片机与手机之间的字符及数字通信功能，且代码中配有详尽的注释说明。关于通信原理的详细阐述，可在我的其他相关文章中查阅。

cmd-bat-批处理-脚本-run dialogue.zip: cmd-bat-批处理-脚本-run dialogue.zip

多智能体编队技术中48智能体点对点转换的分布式模型预测控制及应用多智能体系统: 内容概要：本文详细介绍了多智能体编队技术，特别是针对4智能体和8智能体的点对点转换分布式模型预测控制。首先概述了多智能体编队的概念及其广泛应用，如无人驾驶、无人机编队等。接着深入探讨了分布式模型预测控制的方法论，强调每个智能体依据自身模型和邻近智能体信息进行预测并制定控制策略，从而提升系统灵活性和鲁棒性。随后阐述了点对点转换的具体机制，即智能体间通过高效的信息交换实现状态间的平滑过渡。最后展示了简化的Python代码示例来解释这一过程，并提供了相关领域的权威参考文献。适合人群：对多智能体系统、分布式控制系统感兴趣的科研人员和技术开发者。使用场景及目标：适用于希望深入了解多智能体编队控制理论的研究者以及从事无人驾驶、无人机编队等相关项目的技术人员。目标在于掌握分布式模型预测控制的基本原理及其在实际工程中的应用。其他说明：文中提供的代码仅为概念验证性质，实际部署时还需考虑更多因素如网络延迟、数据同步等。此外，附带的参考文献为读者进一步学习提供了宝贵的资料来源。

2023年系统分析师真题及解析: 2023年系统分析师真题及解析

IMG_20250521_201207.jpg: IMG_20250521_201207.jpg

基于鲸鱼算法的光伏风电选址定容优化及其经济性评估多目标优化: 内容概要：本文探讨了利用鲸鱼算法（Whale Optimization Algorithm）对光伏和风电项目的选址和定容进行优化的方法。鲸鱼算法是一种新颖的智能算法，它模仿座头鲸的捕食行为，具有较少的参数调整需求和强大的寻优能力。文中详细介绍了该算法的核心机制，如气泡网攻击策略，并展示了如何将其应用于新能源项目的选址定容问题中。具体来说，通过定义合适的目标函数来衡量不同方案的表现，包括网损、节点电压偏差和投资成本等因素。此外，还讨论了如何通过调整权重系数来平衡各个目标之间的关系，从而获得最佳解决方案。最终，通过对实验结果的分析，证明了鲸鱼算法在处理此类多维度优化问题上的优越性能。适合人群：从事新能源规划、电力系统工程及相关领域的研究人员和技术人员。使用场景及目标：适用于需要对光伏和风电项目进行科学合理的选址和定容决策的情境下，旨在提高能源利用效率的同时降低成本，确保电网稳定性和可靠性。其他说明：文中提供了具体的Python代码示例，帮助读者更好地理解和实现鲸鱼算法的应用。同时强调了在实际操作过程中应注意的一些关键因素，如数据预处理方法的选择以及参数设置的影响等。

工业自动化领域威纶通A2触摸屏程序标准精美模板及其应用: 内容概要：本文详细介绍了威纶通标准精美模板，一套专为A2触摸屏程序开发提供的可直接套用的界面模板。模板涵盖了多个实用功能界面，如配方管理、报警记录、操作记录、登录、设备使用说明、参数设置、系统设置、权限设置、趋势显示、电机设置、IO监控、工位用时、文档设置和维修界面。每个界面均经过精心设计，确保界面清新整洁，不带复杂的宏指令，便于操作和维护。此外，模板还支持XY曲线、树状图、数据统计等功能，能够灵活配置和调用。这套模板不仅适用于快速开发，也为新手和在校生提供了宝贵的学习资源。适用人群：工业自动化领域的开发人员、工程师、新手和在校学生。使用场景及目标：① 开发人员可以通过直接套用或复制模板，快速完成A2触摸屏程序开发；② 新手和在校生可以利用模板学习触摸屏程序的设计和实现，掌握工业自动化领域的关键技能。其他说明：模板中的功能和界面设计充分考虑了工业自动化的需求，确保了系统的稳定性和实用性。

一种三元锂电池析锂特性以及检测方法研究.zip: 一种三元锂电池析锂特性以及检测方法研究.zip

大规模无线传感器网络中稀疏信号的数据收集策略.pdf: 大规模无线传感器网络中稀疏信号的数据收集策略.pdf

cmd-bat-批处理-脚本-One_Click_StockPrice.zip: cmd-bat-批处理-脚本-One_Click_StockPrice.zip

cmd-bat-批处理-脚本-installed-package-contents.zip: cmd-bat-批处理-脚本-installed-package-contents.zip

2025年网络媒体项目解决方案.docx: 2025年网络媒体项目解决方案.docx

实证数据-2010-2023年上市公司-管理层情感语调数据-社科经管.rar: 该数据集为2010-2023年中国A股上市公司管理层情感语调的年度面板数据，覆盖45,320条样本，数据源自年报及半年报的"管理层讨论与分析"部分。通过构建中文金融情感词典（融合《知网情感分析用词典》与L&M金融词汇表），采用文本分析方法计算情感语调指标，包括：正面/负面词汇数量、文本相似度、情感语调1（(积极词-消极词)/总词数）和情感语调2（(积极词-消极词)/(积极词+消极词)）。同时包含盈利预测偏差、审计意见类型等衍生指标，可用于研究信息披露质量、市场反应及代理问题。该数据复刻了《管理世界》《财经研究》等期刊的变量构建方法，被应用于分析语调操纵对债券市场的影响，学术常用度与稀缺度较高。

cmd-bat-批处理-脚本-green.zip: cmd-bat-批处理-脚本-green.zip

心脏病发作数据集.rar: 数据文档背景描述心脏病是全球主要的健康威胁之一，也是导致死亡的主要原因。及早识别心脏病风险因素和预测可能的心脏问题对于预防和治疗至关重要。该数据集收集了与心脏健康相关的多种生理指标和实验室检查结果，旨在帮助开发能够区分心脏病阳性和阴性患者的预测模型。通过分析这些数据，医疗专业人员和研究人员可以更好地理解不同因素（如年龄、性别、血压、血糖和心肌标志物）对心脏病发展的影响，从而制定更精准的诊断和治疗方案。数据说明字段说明 Age 患者年龄 Gender 性别（1=男性，0=女性） Heart rate 心率（每分钟心跳次数） Systolic blood pressure 收缩压（毫米汞柱） Diastolic blood pressure 舒张压（毫米汞柱） Blood sugar 血糖水平（毫克/分升） CK-MB 肌酸激酶同工酶水平（心肌损伤标志物） Troponin 肌钙蛋白水平（心肌损伤特异性标志物） Result 诊断结果（positive=患有心脏病，negative=未患心脏病）问题描述该数据集适用于多种分析和预测场景，可以帮助解决以下问题：心脏病风险预测：基于生理指标和生化标志物预测个体患心脏病的风险。关键指标识别：确定对心脏病诊断最有预测价值的生理和生化指标。人口统计学分析：研究年龄和性别与心脏病发生率之间的

中国传统节日小年介绍.pptx: 中国传统节日小年介绍.pptx

cmd-bat-批处理-脚本-printCHM.zip: cmd-bat-批处理-脚本-printCHM.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论