`
文章列表

[置顶] Lucene收集

解决Lucene的多线程并发问题 http://www.tuicool.com/articles/AjqIjq   Lucene的并发性安全性以及锁 http://www.cnblogs.com/likehua/archive/2012/02/16/2354532.html   lucene write.lock解决方法 http://www.ablanxue.com/shtml/201411/25889_1.shtml   lucene索引删除,恢复,更新 http://blog.csdn.net/karldoenitz/article/details/7972214 ...
  最近研究了下python,idea工具怎可能少,pycharm我是必须要安装的。要用python,第三方库不可少,用pycharm安装还是灰常方便的。但是网络环境经常不可描述,经常连接不上国外资源,这里也总结了一下解决方式。   首先打开pycharm的设置,ctrl+alt+s或者file菜单里找,然后出来那个大设置框,搜索interpreter,基本光标定位的那个就是,然后会出现下图的样子。     右边列表就是已经安装的第三方库,这时若要添加新库,则点击那个绿色的+号。出现如下图所示的状态。     此时从下边列表(可能没有条目,可继续看)里找到想要添加的库,比如搜索 ...
做的漂亮! 以下主要分享实时流处理系统Storm里的一点小故事。但让我总结起来,首先我想到的是硕士期间一位大老板,牛逼的人物IEEE Fellow,系统控制和电力优化的背景,他推崇一个简单的原则,用公式来描述你的核心思路,如果写不出这样的公式,要么是你还不够了解你的优化对象和方法的本质,要么是你选择了苦逼的道路;你的方法主要靠暴力压榨资源换取一定的效果而且还有不确定性,有朝一日容易被秒杀。我当时还在做神经网络,遗传算法之类(没想到吧),顿觉中枪,离大老板的期望很远啊。这些算法,说不出个什么数学原理,多是基于大量数据的随机优化,还要监督训练,对于最后选出的参数你也没法很好的解释,整个就是黑盒一 ...
PS:下面是性能测试的主要概念和计算公式,记录下: 一.系统吞度量要素:   一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。 单个reqeust 对CPU消耗越高,外部系统接口、IO影响速度越慢,系统吞吐能力越低,反之越高。 系统吞吐量几个重要参数:QPS(TPS)、并发数、响应时间         QPS(TPS):每秒钟request/事务 数量         并发数: 系统同时处理的request/事务数         响应时间:  一般取平均响应时间
在企业应用中,除了经常会用到企业级的性能监控和告警工具(如nagios、zabbix),还会在服务器设备出现性能问题时,可以通过部署一些可以进行性能回溯和追踪的性能分析工具,便于在主机hang死或挂机时,定位主机各项指标是否过载,也可以定位到具体是哪些程序引发了性能瓶颈。 运维人员一般接触到性能分析工具非常多,win平台下的有perfmon、java下的jprofile、系统下的sysstat工具包、nmon、top、htop、atop、iftop、iotop…… ,如果我们想列,这个名单还可以更长。不过大部分工具都是即时查看的,如果想要对历史数据进行存储,就需要配合脚本进行数据处理。不过显 ...
When you are optimizing the performance of your Storm topologies it helps to understand how Storm’s internal message queues are configured and put to use. In this short article I will explain and illustrate how Storm version 0.8/0.9 implements the intra-worker communication that happens within a w ...
Storm ui 展示字段说明 Storm ui 首页主要分为4块: Cluster Summary,Topology summary,Supervisor summary,Nimbus Configuration,如下图所示:  Cluster Summary Version: storm 版本号 Nimbus uptime: nimbus 运行时间 Supervisor:storm集群中supervisor的数目 User slots:使用的slots数Free slots:剩余的slots数 Total slots:总的slots 数(对应配置文件的super ...
浅谈软件性能测试中关键指标的监控与分析 一、软件性能测试需要监控哪些关键指标? 软件性能测试的目的主要有以下三点: Ø  评价系统当前性能,判断系统是否满足预期的性能需求。 Ø  寻找软件系统可能存在的性能问题,定位性能瓶颈并解决问题。 Ø  判定软件系统的性能表现,预见系统负载压力承受力,在应用部署之前,评估系统性能。 而对于用户来说,则最关注的是当前系统: Ø  是否满足上线性能要求? Ø  系统极限承载如何? Ø  系统稳定性如何?        因此,针对以上性能测试的目的以及用户的关注点,要达到以上目的并回答用户的关注点,就必须首先执行性能测试并明确需要收集、监控 ...
  细心的朋友会注意到,当你在linux下频繁存取文件后,物理内存会很快被用光,当程序结束后,内存不会被正常释放,而是一直作为caching.这个问题,貌似有不少人在问,不过都没有看到有什么很好解决的办法.那么我来谈谈这个问题. 先来说说free命令 [root@server ~]# free -m                    total       used       free     shared    buffers     cachedMem:           249        163         86          0         10     ...
简介 storm1.0版本的重要功能都在1.0.0版本中发布,1.0.1版本中以fixed bug为主,调研使用1.0.1版本. storm1.0.0 :http://storm.apache.org/2016/04/12/storm100-released.html    Pacemaker 默认情况下使用zookeeper来存储心跳信息,需要修改配置。 storm.cluster.state.store "org.apache.storm.pacemaker.pacemaker_state_factory"  参考资料: https://storm.apa ...
事情源于在看基于Storm的CEP引擎:flowmix的FlowmixBuilder代码,每个Bolt设置了这么多的Group,而且declareStream也声明了这么多的stream-id,对于只写过WordCountTopology
elasticsearch-Hadoop提供ElasticSearch与Apache Storm的集成支持。从ElasticSearch读取的数据是以Storm里Tuple的形式进行操作处理。 依赖版本信息: <dependency><groupId>org.apache.storm</groupId><artifactId>storm-core</artifactId><version>1.0.1</version></dependency><dependency><grou ...
Kuromoji是一个开源的,基于java语言开发的轻量级的日文分词工具包。捐赠给了ASF之后被内置在Lucene 和 Solr中,作为默认的日文分词器(默认的中文分词器是smartcn)。但他也不依赖Lucene 或 Solr,可以单独使用。采用维特比算法(Viterbi algorithm),默认使用IPA字典。 其他有名的还有lucene-gosen :http://code.google.com/p/lucene-gosen/ 以及Google・Amazon・楽天等日本大的搜索引擎使用的Rosette :http://www.basistech.jp/base-linguistics/ ...
1.Apache POI简介             Apache POI是Apache软件基金会的开放源码函式库,官方名称为:Apache POI - the Java API for Microsoft Documents,POI提供API给Java程序对Microsoft Office格式文档读和写的功能。 .NET的开发人员则可以利用NPOI (POI for .NET) 来存取 POI 的功能。   2.Apache POI结构 HSSF - 提供读写Microsoft Excel XLS格式档案的功能。
  elasticsearch用于构建高可用和可扩展的系统。扩展的方式可以是购买更好的服务器(纵向扩展)或者购买更多的服务器(横向扩展),Elasticsearch能从更强大的硬件中获得更好的性能,但是纵向扩展也有一定的局限性。真正的扩展应该是横向的,它通过增加节点来传播负载和增加可靠性。对于大多数数据库而言,横向扩展意味着你的程序将做非常大的改动来利用这些新添加的设备。对比来说,Elasticsearch天生是分布式的:它知道如何管理节点来提供高扩展和高可用。这意味着你的程序不需要关心这些。对于大多数数据库而言,横向扩展意味着你的程序将做非常大的改动来利用这些新添加的设备。对比来说,Elas ...
Global site tag (gtag.js) - Google Analytics