论坛首页 Java企业应用论坛

Java语法糖的味道:泛型与类型擦除

浏览 19507 次
精华帖 (18) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-04-28   最后修改:2011-04-28
趁着编辑许可,尽量多发一些独立性比较强的内容出来分享一下。

原创文章,转载请注明以下信息:
作者:icyfenix@gmail.com
来源:《深入理解Java虚拟机:JVM高级特性与最佳实践》

Java语法糖的味道:泛型与类型擦除

  泛型是JDK 1.5的一项新特性,它的本质是参数化类型(Parameterized Type)的应用,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
  泛型思想早在C++语言的模板(Templates)中就开始生根发芽,在Java语言处于还没有出现泛型的版本时,只能通过Object是所有类型的父类和类型强制转换两个特点的配合来实现类型泛化。例如在哈希表的存取中,JDK 1.5之前使用HashMap的get()方法,返回值就是一个Object对象,由于Java语言里面所有的类型都继承于java.lang.Object,那Object转型成任何对象都是有可能的。但是也因为有无限的可能性,就只有程序员和运行期的虚拟机才知道这个Object到底是个什么类型的对象。在编译期间,编译器无法检查这个Object的强制转型是否成功,如果仅仅依赖程序员去保障这项操作的正确性,许多ClassCastException的风险就会被转嫁到程序运行期之中。
  泛型技术在C#和Java之中的使用方式看似相同,但实现上却有着根本性的分歧,C#里面泛型无论在程序源码中、编译后的IL中(Intermediate Language,中间语言,这时候泛型是一个占位符)或是运行期的CLR中都是切实存在的,List<int>与List<String>就是两个不同的类型,它们在系统运行期生成,有自己的虚方法表和类型数据,这种实现称为类型膨胀,基于这种方法实现的泛型被称为真实泛型。
  Java语言中的泛型则不一样,它只在程序源码中存在,在编译后的字节码文件中,就已经被替换为原来的原生类型(Raw Type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此对于运行期的Java语言来说,ArrayList<int>与ArrayList<String>就是同一个类。所以说泛型技术实际上是Java语言的一颗语法糖,Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型被称为伪泛型。
  代码清单10-2是一段简单的Java泛型例子,我们可以看一下它编译后的结果是怎样的?

  代码清单 10-2 泛型擦除前的例子
public static void main(String[] args) {
	Map<String, String> map = new HashMap<String, String>();
	map.put("hello", "你好");
	map.put("how are you?", "吃了没?");
	System.out.println(map.get("hello"));
	System.out.println(map.get("how are you?"));
}
  把这段Java代码编译成Class文件,然后再用字节码反编译工具进行反编译后,将会发现泛型都不见了,程序又变回了Java泛型出现之前的写法,泛型类型都变回了原生类型,如代码清单10-3所示。

  代码清单 10-3 泛型擦除后的例子
public static void main(String[] args) {
	Map map = new HashMap();
	map.put("hello", "你好");
	map.put("how are you?", "吃了没?");
	System.out.println((String) map.get("hello"));
	System.out.println((String) map.get("how are you?"));
}
  当初JDK设计团队为什么选择类型擦除的方式来实现Java语言的泛型支持呢?是因为实现简单、兼容性考虑还是别的原因?我们已不得而知,但确实有不少人对Java语言提供的伪泛型颇有微词,当时甚至连《Thinking In Java》一书的作者Bruce Eckel也发表了一篇文章《这不是泛型!》 来批评JDK 1.5中的泛型实现。
注1:原文:http://www.anyang-window.com.cn/quotthis-is-not-a-genericquot-bruce-eckel-eyes-of-the-generic-java/
  当时众多的批评之中,有一些是比较表面的,还有一些从性能上说泛型会由于强制转型操作和运行期缺少针对类型的优化等从而导致比C#的泛型慢一些,则是完全偏离了方向,姑且不论Java泛型是不是真的会比C#泛型慢,选择从性能的角度上评价用于提升语义准确性的泛型思想,就犹如在讨论刘翔打斯诺克的水平与丁俊晖有多大的差距一般。但笔者也并非在为Java的泛型辩护,它在某些场景下确实存在不足,笔者认为通过擦除法来实现泛型丧失了一些泛型思想应有的优雅,例如下面代码清单10-4的例子:

  代码清单 10-4 当泛型遇见重载 1
public class GenericTypes {

    public static void method(List<String> list) {
        System.out.println("invoke method(List<String> list)");
    }

    public static void method(List<Integer> list) {
        System.out.println("invoke method(List<Integer> list)");
    }
}
  请想一想,上面这段代码是否正确,能否编译执行?也许您已经有了答案,这段代码是不能被编译的,是因为参数List<Integer>和List<String>编译之后都被擦除了,变成了一样的原生类型List<E>,擦除动作导致这两个方法的特征签名变得一模一样。初步看来,无法重载的原因已经找到了,但是真的就是如此吗?只能说,泛型擦除成相同的原生类型只是无法重载的其中一部分原因,请再接着看一看代码清单10-5中的内容。

  代码清单 10-5 当泛型遇见重载 2
public class GenericTypes {

    public static String method(List<String> list) {
        System.out.println("invoke method(List<String> list)");
        return "";
    }

    public static int method(List<Integer> list) {
        System.out.println("invoke method(List<Integer> list)");
        return 1;
    }

    public static void main(String[] args) {
        method(new ArrayList<String>());
        method(new ArrayList<Integer>());
    }
}
  执行结果:
invoke method(List<String> list)
invoke method(List<Integer> list)
  代码清单10-5与代码清单10-4的差别,是两个method方法添加了不同的返回值,由于这两个返回值的加入,方法重载居然成功了,即这段代码可以被编译和执行 了。这是我们对Java语言中返回值不参与重载选择的基本认知的挑战吗?
注2:测试的时候请使用Sun JDK的Javac编译器进行编译,其他编译器,如Eclipse JDT的ECJ编译器,仍然可能会拒绝编译这段代码,ECJ编译时会提示“Method method(List<String>) has the same erasure method(List<E>) as another method in type GenericTypes”。
  代码清单10-5中的重载当然不是根据返回值来确定的,之所以这次能编译和执行成功,是因为两个mehtod()方法加入了不同的返回值后才能共存在一个Class文件之中。第6章介绍Class文件方法表(method_info)的数据结构时曾经提到过,方法重载要求方法具备不同的特征签名,返回值并不包含在方法的特征签名之中,所以返回值不参与重载选择,但是在Class文件格式之中,只要描述符不是完全一致的两个方法就可以共存。也就是说两个方法如果有相同的名称和特征签名,但返回值不同,那它们也是可以合法地共存于一个Class文件中的。
  由于Java泛型的引入,各种场景(虚拟机解析、反射等)下的方法调用都可能对原有的基础产生影响和新的需求,如在泛型类中如何获取传入的参数化类型等。所以JCP组织对虚拟机规范做出了相应的修改,引入了诸如Signature、LocalVariableTypeTable等新的属性用于解决伴随泛型而来的参数类型的识别问题,Signature是其中最重要的一项属性,它的作用就是存储一个方法在字节码层面的特征签名 ,这个属性中保存的参数类型并不是原生类型,而是包括了参数化类型的信息。修改后的虚拟机规范 要求所有能识别49.0以上版本的Class文件的虚拟机都要能正确地识别Signature参数。
注3:在《Java虚拟机规范第二版》(JDK 1.5修改后的版本)的“§4.4.4 Signatures”章节及《Java语言规范第三版》的“§8.4.2 Method Signature”章节中分别都定义了字节码层面的方法特征签名,以及Java代码层面的方法特征签名,特征签名最重要的任务就是作为方法独一无二不可重复的ID,在Java代码中的方法特征签名只包括了方法名称、参数顺序及参数类型,而在字节码中的特征签名还包括方法返回值及受查异常表,本书中如果指的是字节码层面的方法签名,笔者会加入限定语进行说明,也请读者根据上下文语境注意区分。
  从上面的例子可以看到擦除法对实际编码带来的影响,由于List<String>和List<Integer>擦除后是同一个类型,我们只能添加两个并不需要实际使用到的返回值才能完成重载,这是一种毫无优雅和美感可言的解决方案。同时,从Signature属性的出现我们还可以得出结论,擦除法所谓的擦除,仅仅是对方法的Code属性中的字节码进行擦除,实际上元数据中还是保留了泛型信息,这也是我们能通过反射手段取得参数化类型的根本依据。
   发表时间:2011-04-29  
注3中提到:字节码中的特征签名还包括方法返回值及受查异常表

但如下代码为何也不能编译通过?

import java.util.ArrayList;
import java.util.List;

public class GenericTypes2 {

public static void method(List<String> list) throws NullPointerException {
System.out.println("invoke method(List<String> list)");
// return "";
}

public static void method(List<Integer> list) throws ClassCastException {
System.out.println("invoke method(List<Integer> list)");
// return 1;
}

public static void main(String[] args) throws Exception {
method(new ArrayList<String>());
method(new ArrayList<Integer>());
}
}
0 请登录后投票
   发表时间:2011-04-29  
另外,很期待你书但出版!
0 请登录后投票
   发表时间:2011-04-29   最后修改:2011-04-29
kdevn 写道
注3中提到:字节码中的特征签名还包括方法返回值及受查异常表

但如下代码为何也不能编译通过?

import java.util.ArrayList;
import java.util.List;

public class GenericTypes2 {

public static void method(List<String> list) throws NullPointerException {
System.out.println("invoke method(List<String> list)");
// return "";
}

public static void method(List<Integer> list) throws ClassCastException {
System.out.println("invoke method(List<Integer> list)");
// return 1;
}

public static void main(String[] args) throws Exception {
method(new ArrayList<String>());
method(new ArrayList<Integer>());
}
}


嗯,也许我的表达有些问题,令你产生误解。

方法字节码层面的签名不同,并不是方法能被正确调用的充分条件(只是必要条件)。编译器不能允许把2个方法仅仅“能共存(能区别开来)”就可以允许编译通过了,程序能正常运行,方法能正确调用是必须要保证的。而在main方法里面调用2个mehtod方法的代码是这样的:
bytecode 写道
invokestatic GenericTypes/method(Ljava/util/List;)Ljava/lang/String;
invokestatic GenericTypes/method(Ljava/util/List;)I


所以我没有拿加了异常来做例子。

0 请登录后投票
   发表时间:2011-04-29  
IcyFenix 写道


方法字节码层面的签名不同,并不是方法能被正确调用的充分条件(只是必要条件)。编译器不能允许把2个方法仅仅“能共存(能区别开来)”就可以允许编译通过了,程序能正常运行,方法能正确调用是必须要保证的。而在main方法里面调用2个mehtod方法的代码是这样的:
bytecode 写道
invokestatic GenericTypes/method(Ljava/util/List;)Ljava/lang/String;
invokestatic GenericTypes/method(Ljava/util/List;)I


所以我没有拿加了异常来做例子。



也就是说,

程序能编译通过 => 方法签名不同 => 在方法参数中包含泛型时,方法签名可以用方法名,方法参数类型、顺序、个数,返回值(而不是方法声明的异常类型)来区分?
0 请登录后投票
   发表时间:2011-04-29  
Method method(List<Integer>) has the same erasure method(List<E>) as another method in type XX类
0 请登录后投票
   发表时间:2011-04-29  
Java 5中引入了泛型的概念之后,Java反射API也做了相应的修改,以提供对泛型的支持。由于类型擦除机制的存在,泛型类中的类型参数等信息,在运行时刻是不存在的。JVM看到的都是原始类型。对此,Java 5对Java类文件的格式做了修订,添加了Signature属性,用来包含不在JVM类型系统中的类型信息。比如以java.util.List接口为例,在其类文件中的Signature属性的声明是<E:Ljava/lang/Object;>Ljava/lang/Object;Ljava/util/Collection<TE;>;; ,这就说明List接口有一个类型参数E。在运行时刻,JVM会读取Signature属性的内容并提供给反射API来使用。

比如在代码中声明了一个域是List<String>类型的,虽然在运行时刻其类型会变成原始类型List,但是仍然可以通过反射来获取到所用的实际的类型参数。

Field field = Pair.class.getDeclaredField("myList"); //myList的类型是List
Type type = field.getGenericType();
if (type instanceof ParameterizedType) {    
    ParameterizedType paramType = (ParameterizedType) type;    
    Type[] actualTypes = paramType.getActualTypeArguments();    
    for (Type aType : actualTypes) {        
        if (aType instanceof Class) {        
            Class clz = (Class) aType;            
            System.out.println(clz.getName()); //输出java.lang.String        
        }    
    }


http://www.infoq.com/cn/articles/cf-java-reflection-dynamic-proxy

0 请登录后投票
   发表时间:2011-04-29  
这文章有点意思
0 请登录后投票
   发表时间:2011-04-29  

10.5的那个例子真有意思,我还真不知道!



关于泛型,江南白衣的一篇文章也很不错.
Java5泛型的用法,T.class的获取和为擦拭法站台

另外,有个入门文章也讲了一些java泛型的无奈.
Java 理论和实践: 了解泛型
(这篇文章最下的"参考资料"里链接的文章也很实用)


0 请登录后投票
   发表时间:2011-04-29  
  
一本真正意义上的好书。
虽然只读了一节,却收益匪浅。出版后肯定要买一本。
不知道定价是多少呢?!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics