`
文章列表
  深入分析 Java 中的中文编码问题 几种常见的编码格式 为什么要编码 不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的 ...
使用hadoop进行大量的数据排序排序最直观的方法是把文件所有内容给map之后,map不做任何处理,直接输出给一个reduce,利用hadoop的自己的shuffle机制,对所有数据进行排序,而后由reduce直接输出。 然而这样的方法跟单机毫无差 ...
日志分析方法概述: 日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。 本文讨论的日志处理方法中的日志 ...
  第一部分、十道海量数据处理面试题    1、海量日志数据,提取出某日访问百度次数最多的那个IP。   此题,在我之前的一篇文章 算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。   再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。 同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率 统 ...
   Java不需要程序员自己管理内存,但是在实际开发中总可能会出现内存泄漏的情况。effective java 上记载一般java内存泄漏有如下三种情况: 1 过期引用     所谓过期引用就是永远不解除的引用(总有引用指向这个对象),java的垃圾回收机制的前提是该对象无引用指向。在集合中经常可以看见删除一个对象的时候需将其引用置为null,否则这个对象是不会被回收的。 2 缓存:       一旦你把对象放入缓存中,它就很容易被遗忘掉。从而使得它不再有用之后很长时间留在缓存中。对于这种问题,有几个解决方案,可以用WeakHashMap代表缓存。当缓存中的项过期之后,他们就会自动被删 ...
  自从去年开通博客后从来就没有写过文章,在下实在是很惭愧啊,这一年多来在javaeye上学了不少的东西,也看过很多技术牛人的博客,心里也一直想:哪天要能自己写些工作体会,学习历程和大家分享下一定会非常有意义。午夜0点半,终于决定要在javaeye上多写些自己的心得体会,一个是为了自己总结方便,二是也希望能广大javaer批评指正。我一直想对一些开源源代码进行解析。我也知道自己水平很浅,但是工作这么久一直想抽空研究下一些开源软件的sourceCode,看看大牛写的代码 借鉴思路,也为工作上能更深入的了解其底层原理。目前一直在看的有yale cas ,lucene tomcat,spring ,j ...
  一直想有一个自己的技术博客,由于以前比较懒,发现 Javaeye上好多大牛啊 ,希望能借这个平台和大家好好沟通一下,我以后的博客会写关于 j2ee soa bpm, swing方向的文章。欢迎大家来我的博客做客,希望大家多多指教。
Global site tag (gtag.js) - Google Analytics