`
gaozzsoft
  • 浏览: 413257 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
文章列表
  联邦学习研究          随着IT移动化步伐地迈进,互联网数据被割裂为一个个孤岛,制约AI发展的一个瓶颈是保护用户数据隐私和打破不同主体之间数据孤岛的问题。随着移动设备性能的强化,4G/5G的兴起普及,在移动终端上进行模型训练变得可行。2016年,Google团队发布了一篇论文:Communication-Efficient Learning of Deep Networks from Decentralized Data。自此,产业界联邦学习(「Federal Learning」,Google中文命名为联盟学习,国内习惯称为联邦学习)的大幕开启。   在数百万不同的智能手 ...
ER模型建模 其建模本质是是从全企业的高度设计一个3NF模型,用实体关系(ER)模型描述企业业务,在范式理论上符合3NF。 3NF - OLAP vs OLTP OLAP中的3NF与OLTP系统中的3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对 ...
企业架构(Enterprise Architecture,EA), 是对构成企业的所有关键元素和关系的总和描述,是一种提升IT对企业经营贡献度的设计方法,是一种为解决未来的企业环境及目前企业所面临的问题而画的蓝图,其目标则在于迅速而又弹 性的让业务流程与信息化系统可以快速响应经营策略。EA的运用可以让企业与IT始终维持在整合的状态,经营者可以用EA鸟瞰企业整体的业务结构、下达指示、强化企业对变化的响应能力。   1、EA是企业架构的管理平台   企业用来管理企业架构的一套工具、方法论和管理思想。   2、EA是企业架构的描述方法   (1)EA基于企业的管理架构、描述了不同 ...
非结构化数据是指那些没有特定格式和组织的数据,比如文本文档、邮件、音频、视频等。这些数据通常难以用传统的关系型数据库来存储和处理。然而,非结构化数据却蕴含着极其重要的信息,因此越来越多的企业开始重视非结构化数据的采集和分析。在这篇文章中,我们将介绍8种常用的非结构化数据采集工具。   1. Apache Nutch   Apache Nutch 是一款开源的网络爬虫软件,可以用于抓取互联网上的非结构化数据。它支持多种文件格式,包括 HTML、XML、PDF、Word 等,并且可以自定义抓取规则。Nutch 还提供了一个基于 Lucene 的搜索引擎,可以用于对抓取到的数据进行索引和搜 ...
Hive引擎简介   Hive引擎包括:默认MR、Tez、Spark   不更换引擎hive默认的是MR。   Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。   Spark on Hive : Hive只作为 ...
因为ITEYE博客无法上传图片,不太好使用,慢慢准备用的少了,纯文字的文章还可以继续使用ITEYE。以后是IT老兵的双博客驱动了。我的CSDN博客:https://blog.csdn.net/gaozhenzhai微信公众号:<<大数据架构之道与术>>欢迎关注。  
 JVM OOM优化   jmap -heap 30378   jstat -gcutils 30378 1000 1000   jmap -histo 30378 | head -20  就可以查看某个应用pid的java服务占用内存排名前20的类 jmap -dump:format=b,file=mydump.hprof 30378  查看JAVA应用线程情况:ps p 30378 -L -o pcpu,pmem,pid,tid,time,tname,cmd PS: 30378是JAVA进程ID ulimit  -a 查看文件句柄 查看进程被限制使用的资源   修改文 ...
 HashMap为什么用红黑树而不用跳表? 1、跳表需要维护额外的多层链表,是空间换时间的做法,红黑树不用占用多余的空间 2、同时HashMap的Entry并没有内在的排序关系,所以也无法使用跳表,因为跳表本身要求要存在排序关系(个人认为最重要) 总结 key的hashcode无法排序,所以无法实现跳表结构,那不用hashCode不就好了吗?其实如果有这个疑问就走进了一个死胡同。正因为用了hashCode才叫HashMap,不用hash的Map也有呀,有实现了排序关系的Map,比如TreeMap(使用TreeMap所有的key都必须直接或间接的实现Comparable接口,否则会报c ...
  1.分段加锁   生产者客户端每发送一条消息,都会调用org.apache.kafka.clients.producer.internals.RecordAccumulator#append,因此它是高并发方法,需要保证线程安全。在高并发海量吞吐的场景下,如何才能保证消息有序、高吞吐地发送是 ...
MurmurHash 哈希算法   MurmurHash:(multiply and rotate) and (multiply and rotate) Hash,乘法和旋转的hash 算法。 MurmurHash 是一种非加密型哈希函数,适用于一般的哈希检索操作。目前已经被广泛应用到很多开源的项目当中,如Redis,Memcached ...
  详细更多对外接口参考华为论坛-【开发案例】Yarn对外接口: https://forum.huawei.com/enterprise/zh/thread-451687.html   ====================================================   Yarn漏洞攻击: curl -X POST "http://x.x.x.x:8088/ws/v1/cluster/apps/new-applicati ...
  图文详见我的微信公众号<<大数据架构之道与术>> URL如下: 数据库数据结构索引&B树&B+树&LSM树解密 https://mp.weixin.qq.com/s?__biz=Mzg4MTY3MzA0NQ==&mid=2247484073&idx=1&sn=f3bb5f74c301b1d80c70d30cbd86b3ec&chksm=cf631493f8 ...
PDCA工作法   PDCA:Plan计划、Do行动、Check检查、Action改善,四步骤环环相扣,将一个目标转换成可以具体实施的计划,从而达成目标并为更高的目标作基石。   四步骤每个步骤包含两点,共八点:   一、Plan计划: 1、确定目标,工作开始首先要明确工作目标,这是整个工作循环围绕的中心。 2、制定计划,制定计划需要对目标进行分析,影响目标的因素有哪些?达成目标需要完成哪些事情?并就此制定确实可行的计划,并制定计划实施过程中的考核指标,对计划划分阶段,能更好的把控计划在实施过程中的进度,必要时,需要制定应急计划。   二、Do行动: 1、实施计划,将上 ...
kafka源码剖析 详见微信公众号<<大数据架构之道与术>> URL如下: https://mp.weixin.qq.com/s?__biz=Mzg4MTY3MzA0NQ==&mid=2247483821&idx=1&sn=154b369162d722980af0587c49ad787f&chksm=cf631797f8149e8131e43d586c941ee00d1b28b61f505089e7c5007c840d2630f08643969e41   我的原创。   https://mp.weixin.qq.com/s? ...
zookeeper源码图剖析 详见微信公众号<<大数据架构之道与术>> URL如下:   https://mp.weixin.qq.com/s?__biz=Mzg4MTY3MzA0NQ==&mid=2247483874&idx=1&sn=65a781c4afd4afe0c872d459f3444315&chksm=cf6317d8f8149ecea46e613d0cfd50aebc5c2b330222efa4f5477f0043c0da0f3b24d30396ac   我的原创。   https://mp.weixin.q ...
Global site tag (gtag.js) - Google Analytics