ArrayList--源码分析之理论结合实践

moon_walker

浏览: 249177 次
性别:
来自: 成都

最近访客更多访客>>

zhy584520

aichenglong

xiuyibin

ddty03

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java基础

ArrayList jdk1.8

引子

最近在从事一些基于大数据做 “应用级产品”的架构设计和开发工作，比如实时流量监控、实时热力图、注意力热图等。发现一些基础类的正确使用，对性能提升还是挺大的。记录下来，时刻提醒自己一定要开发中的注意细节。

“万丈高楼平地起”，在软件开发中如果不注重细节，会带来很大的性能问题，尤其是在大数据相关产品的开发中。本系列中会结合开发中遇到的实际情况，结合源码进行分析。首先来看看我们用得很多的ArrayList。

一个典型的场景：批量向hbase写入数据（数据量大的情况下尽量避免一条一条的插入）。一般的写法为：

//在大数据场景下，该方法会被循环调用

public void insert(List<DataObjet> datas){
…………省略代码…….
List<put> puts = new ArrayList<put>();
Put put = null;
For(DataObjet data; datas){//一般为for循环一个list的对象，大小为几十到几百不等
Put = new Put(data.getId().getBytes()); //设置rowkey
Put.add(xx,xx,xx); //添加每个column
…………省略代码…….
puts.add(put); //放入list
}
table.setAutoFlush(false);//table为habse表，关闭批量提交
…………省略代码…….
table.put(puts);
table.flushCommits();
}

咋一看没啥问题，但是在插入十万，百万，乃至亿级别的数据时，其实还是有优化空间的。

想必大家已经看出来，问题出现在这行List<put> puts = new ArrayList<put>()，没有指定数据大小。

ArrayList的三个构造方法

一起来重新认识下ArrayList（jdk1.8）：简单的说是一个动态数组，其容量可可以自动增长的数组。

先看下三个构造方法：

1、默认构造方法：

/**
     * 初始化一个空数组，默认容量是10
     */
    public ArrayList() {
        this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
    }
   // 空数组
   private static final Object[] DEFAULTCAPACITY_EMPTY_ELEMENTDATA = {};
   //默认容量大小
   private static final int DEFAULT_CAPACITY = 10;

2、指定容量构造方法：

    /**
     * 指定容量大小
     */
    public ArrayList(int initialCapacity) {
        if (initialCapacity > 0) {
            this.elementData = new Object[initialCapacity];
        } else if (initialCapacity == 0) {
            this.elementData = EMPTY_ELEMENTDATA;
        } else {
            throw new IllegalArgumentException("Illegal Capacity: "+
                    initialCapacity);
        }
    }

3、通过Collection创建：

public ArrayList(Collection<? extends E> c) {
    //先转换为数组
        elementData = c.toArray();
        if ((size = elementData.length) != 0) {
            // c.toArray might (incorrectly) not return Object[] (see 6260652)
            if (elementData.getClass() != Object[].class)
                elementData = Arrays.copyOf(elementData, size, Object[].class);
        } else {
            // replace with empty array.
            this.elementData = EMPTY_ELEMENTDATA;
        }
}

入参只要是实现了Collection接口的子孙类型（set、list），都可以作为参数。

我们经常用的是第一个无参默认构造方法。

再来看添加方法：

public boolean add(E e) {
        ensureCapacityInternal(size + 1);  // 确保数组容量
        elementData[size++] = e;
        return true;
}
 
/**
* minCapacity 需要的最小容量
*/
private void ensureCapacityInternal(int minCapacity) {
//这个好理解，如果不够10，minCapacity改为10
        if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
            minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
        }
        //根据情况改变数组长度，可变数组的核心方法
        ensureExplicitCapacity(minCapacity);
}
 
private void ensureExplicitCapacity(int minCapacity) {
        modCount++;
 
        // 如果需要的最小容量超出数据长度，需要对数组进行扩容
        if (minCapacity - elementData.length > 0)
            grow(minCapacity);
    }
 
private void grow(int minCapacity) {
        int oldCapacity = elementData.length;
// 扩容1.5倍、或者1.5倍减1。这里采用的位运算比老版本性能好些
        int newCapacity = oldCapacity + (oldCapacity >> 1);
        if (newCapacity - minCapacity < 0)
            newCapacity = minCapacity;//好理解
        if (newCapacity - MAX_ARRAY_SIZE > 0)
            newCapacity = hugeCapacity(minCapacity);
        // 最终调用System.arraycopy方法，把老数组中的数据copy到新数组
        elementData = Arrays.copyOf(elementData, newCapacity);
}

Grow()方法

第一步：先按照老容量进行扩容，这个地方相对jdk1.6有改进，jdk1.6是按照1.5倍+1进行扩容（int newCapacity = (oldCapacity * 3)/2 + 1）。有没有注意到这个细节，老版本是用的除法，jdk1.8用的是位运算，性能肯定好些。看来大神们都很重视每一个细节。

第二步：判断扩容后的容量是否够用，并判断是否超过最大容量（一般会出现这种情况吧）。

第三步：调用System.arraycopy方法，把老数组中的数据copy到扩容后的新数组。

可以看到默认构造函数容量是10，在大量数据需要插入的情况下（比如批量插入hbase，假如一次批量是500），会进行多次自动扩容，以及多次数组copy。

平时数据量小，体现不出来。在大数据开发中，一次动则插入千万条记录。整体的性能消耗是非常恐怖的。

所以在能明确确认数组大小的情况下，请使用确定的容量进行ArrayList的创建，即第二构造函数。开篇场景中的代码可以改为：

public void insert(List<DataObjet> datas){
…………省略代码…….
List<put> puts = new ArrayList<put>(datas.size());//非空判断没写出来
…………省略代码…….
}

做个简单测试：

        List list = null;
        long s = System.currentTimeMillis();
        for(int j=0;j<100000;j++){
            list = new ArrayList<>();
            //list = new ArrayList<>(500);
            for (int i=0;i<500;i++){
                list.add(1);
            }
        }
        long e = System.currentTimeMillis();
        System.out.println(e-s);

直接运行结果大约是500+ms, 注释代码交互后运行结果大约是200+ms。可以看到提升还是挺多的。

说了这么多，就只改动了一个地方。其实就想表达，一定要注意细节。在平常开发，直接使用默认的构造函数，也许差别不大。比如你的容量基本都不会超过10，那就直接用默认构造函数也是最高效的做法。

subList()方法

ArrayList是实现了Serializable接口的，也就是说可以进行序列化和反序列化，可以在rpc框架（）中进行传输。我们经常用这个方法对ArrayList进行截取，但这个截取后的List是不能在某些rpc框架中进行传输的（如:淘宝dubbo，京东jsf）,主要原因就是这个List没有实现Serializable接口。看代码：

public List<E> subList(int fromIndex, int toIndex) {
        subListRangeCheck(fromIndex, toIndex, size); //是否越界判断
        return new SubList(this, 0, fromIndex, toIndex);
    }

其实是新建了一个Sublist，是ArrayList的私有类：

private class SubList extends AbstractList<E> implements RandomAccess

可以返现该类是没有实现Serializable接口接口的。

另外也可以使用ArrayList的第三个构造方法，把Sublist转换成一个ArrayList。这样就可以在rpc框架中传输了。

      List list = new ArrayList<>();
              list.add(1);
              list.add(2);
              list.add(3);
              List slist = list.subList(0,1);
              List newList = new ArrayList<>(slist);

迭代子模式

在ArrayList里我们还可以学习下，23种常用设计模式中的迭代子模式(关于迭代子模式可以看下这篇文章：http://www.cnblogs.com/java-my-life/archive/2012/05/22/2511506.html) ,

ArrayList的iterator()方法实际上会生成一个ListItr类的实例对象。ListItr类继承至Itr类，Itr是AbstractList类的内部私有类，可以看出该类是AbstractList类的“内禀迭代子”。

只要是继承了AbstractList抽象类，都可以获得这个迭代子。

另外jdk1.8里，ArrayList新增了一个迭代子：ArrayListSpliterator，该类继承自Spliterator。后面抽时间在单独分析下Spliterator的实现类。

总结下：

1、大数据的场景下，说明了使用确定容量的ArrayList的重要性。

2、ArrayList是能序列化的，但是的sublist()生成的list却不能序列化。

3、迭代子模式在ArrayList中的使用。

就啰嗦这么多，ArrayList其他方法这里不再细讲。很多博客已经将的比较详细，感兴趣的同学可以把源码打开看看，还可以看下这篇文章（jdk1.8以前的版本）：http://www.cnblogs.com/ITtangtang/p/3948555.html

1
顶

1
踩

分享到：

java Cloneable—从原型模式说起 | 一次jvm调优

2017-05-13 10:43
浏览 1090
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论