原帖:
http://www0.ccidnet.com/tech/guide/2001/10/08/58_3392.html
SAX概念
SAX是Simple API for XML的缩写,它并不是由W3C官方所提出的标准,可以说是“民间”的事实标准。实际上,它是一种社区性质的讨论产物。虽然如此,在XML中对SAX的应用丝毫不比DOM少,几乎所有的XML解析器都会支持它。
与DOM比较而言,SAX是一种轻量型的方法。我们知道,在处理DOM的时候,我们需要读入整个的XML文档,然后在内存中创建DOM树,生成DOM树上的每个Node对象。当文档比较小的时候,这不会造成什么问题,但是一旦文档大起来,处理DOM就会变得相当费时费力。特别是其对于内存的需求,也将是成倍的增长,以至于在某些应用中使用DOM是一件很不划算的事(比如在applet中)。这时候,一个较好的替代解决方法就是SAX。
SAX在概念上与DOM完全不同。首先,不同于DOM的文档驱动,它是事件驱动的,也就是说,它并不需要读入整个文档,而文档的读入过程也就是SAX的解析过程。所谓事件驱动,是指一种基于回调(callback)机制的程序运行方法。(如果你对Java新的代理事件模型比较清楚的话,就会很容易理解这种机制了)
在XMLReader接受XML文档,在读入XML文档的过程中就进行解析,也就是说读入文档的过程和解析的过程是同时进行的,这和DOM区别很大。解析开始之前,需要向XMLReader注册一个ContentHandler,也就是相当于一个事件监听器,在ContentHandler中定义了很多方法,比如startDocument(),它定制了当在解析过程中,遇到文档开始时应该处理的事情。当XMLReader读到合适的内容,就会抛出相应的事件,并把这个事件的处理权代理给ContentHandler,调用其相应的方法进行响应。
这样泛泛的说来或许有些不容易理解,别急,后面的例子会让你明白SAX的解析过程。看看这个简单XML文件:
<POEM> <AUTHOR>Ogden Nash</AUTHOR> <TITLE>Fleas</TITLE> <LINE>Adam</LINE> </POEM> |
当XMLReader读到<POEM>标签时,就会调用ContentHandler.startElement()方法,并把标签名POEM作为参数传递过去。在你实现的startElement()方法中需要做相应的动作,以处理当<POEM>出现时应该做的事情。各个事件随着解析的过程(也就是文档读入的过程)一个个顺序的被抛出,相应的方法也会被顺序的调用,最后,当解析完成,方法都被调用后,对文档的处理也就完成了。下面的这个表,列出了在解析上面的那个XML文件的时候,顺序被调用的方法:
遇到的项目
|
方法回调
|
{文档开始} | startDocument() |
<POEM> | startElement(null,"POEM",null,{Attributes}) |
"\n" | characters("<POEM>\n...", 6, 1) |
<AUTHOR> | startElement(null,"AUTHOR",null,{Attributes}) |
"Ogden Nash" | characters("<POEM>\n...", 15, 10) |
</AUTHOR> | endElement(null,"AUTHOR",null) |
"\n" | characters("<POEM>\n...", 34, 1) |
<TITLE> | startElement(null,"TITLE",null,{Attributes}) |
"Fleas" | characters("<POEM>\n...", 42, 5) |
</TITLE> | endElement(null,"TITLE",null) |
"\n" | characters("<POEM>\n...", 55, 1) |
<LINE> | startElement(null,"LINE",null,{Attributes}) |
"Adam" | characters("<POEM>\n...", 62, 4) |
</LINE> | endElement(null,"LINE",null) |
"\n" | characters("<POEM>\n...", 67, 1) |
</POEM> | endElement(null,"POEM",null) |
{文档结束} | endDocument() |
ContentHandler实际上是一个接口,当处理特定的XML文件的时候,就需要为其创建一个实现了ContentHandler的类来处理特定的事件,可以说,这个实际上就是SAX处理XML文件的核心。下面我们来看看定义在其中的一些方法:
void characters(char[] ch, int start, int length): |
这个方法用来处理在XML文件中读到字符串,它的参数是一个字符数组,以及读到的这个字符串在这个数组中的起始位置和长度,我们可以很容易的用String类的一个构造方法来获得这个字符串的String类:String charEncontered=new String(ch,start,length)。
void startDocument(): |
当遇到文档的开头的时候,调用这个方法,可以在其中做一些预处理的工作。
void endDocument(): |
和上面的方法相对应,当文档结束的时候,调用这个方法,可以在其中做一些善后的工作。
void startElement(java.lang.String namespaceURI, java.lang.String localName, java.lang.String qName, Attributes atts) |
当读到一个开始标签的时候,会触发这个方法。在SAX1.0版本中并不支持名域,而在新的2.0版本中提供了对名域的支持,这儿参数中的namespaceURI就是名域,localName是标签名,qName是标签的修饰前缀,当没有使用名域的时候,这两个参数都未null。而atts是这个标签所包含的属性列表。通过atts,可以得到所有的属性名和相应的值。要注意的是SAX中一个重要的特点就是它的流式处理,在遇到一个标签的时候,它并不会纪录下以前所碰到的标签,也就是说,在startElement()方法中,所有你所知道的信息,就是标签的名字和属性,至于标签的嵌套结构,上层标签的名字,是否有子元属等等其它与结构相关的信息,都是不得而知的,都需要你的程序来完成。这使得SAX在编程处理上没有DOM来得那么方便。
void endElement(java.lang.String namespaceURI, java.lang.String localName, java.lang.String qName) |
这个方法和上面的方法相对应,在遇到结束标签的时候,调用这个方法。
因为ContentHandler是一个接口,在使用的时候可能会有些不方便,因而,SAX中还为其制定了一个Helper类:DefaultHandler,它实现了这个接口,但是其所有的方法体都为空,在实现的时候,你只需要继承这个类,然后重载相应的方法即可。
OK,到这儿SAX的基本知识已经差不多讲完了,下面我们来看看两个具体的例子,以更好的理解SAX地用法。
SAX编程实例
我们还是沿用讲DOM的时候使用的那个文档例子,但首先,我们先看一个简单一些的应用,我们希望能够统计一下XML文件中各个标签出现的次数。这个例子很简单,但是足以阐述SAX编程的基本思路了。
一开始当然还是import语句了:
import org.xml.sax.helpers.DefaultHandler; import javax.xml.parsers.*; import org.xml.sax.*; import org.xml.sax.helpers.*; import java.util.*; import java.io.*; |
然后,我们创建一个继承于DefaultHandler的类,具体的程序逻辑在这儿可以暂且放在一边,要注意的是程序的结构:
public class SAXCounter extends DefaultHandler { private Hashtable tags; //这个Hashtable用来记录tag出现的次数 // 处理文档前的工作 public void startDocument() throws SAXException { tags = new Hashtable();//初始化Hashtable } //对每一个开始元属进行处理 public void startElement(String namespaceURI, String localName, String rawName, Attributes atts) throws SAXException { String key = localName; Object value = tags.get(key); if (value == null) { // 如果是新碰到的标签,这在Hastable中添加一条记录 tags.put(key, new Integer(1)); } else { // 如果以前碰到过,得到其计数值,并加1 int count = ((Integer)value).intValue(); count++; tags.put(key, new Integer(count)); } } //解析完成后的统计工作 public void endDocument() throws SAXException { Enumeration e = tags.keys(); while (e.hasMoreElements()) { String tag = (String)e.nextElement(); int count = ((Integer)tags.get(tag)).intValue(); System.out.println("Tag <" + tag + "> occurs " + count + " times"); } } //程序入口,用来完成解析工作 static public void main(String[] args) { String filename = null; boolean validation = false; filename="links.xml"; SAXParserFactory spf = SAXParserFactory.newInstance(); XMLReader xmlReader = null; SAXParser saxParser=null; try { // 创建一个解析器SAXParser对象 saxParser = spf.newSAXParser(); // 得到SAXParser中封装的SAX XMLReader xmlReader = saxParser.getXMLReader(); } catch (Exception ex) { System.err.println(ex); System.exit(1); } try { //使用指定的ContentHandler,解析给XML文件,这儿要注意的是,为了 //程序的简单起见,这儿将主程序和ContentHandler放在了一起。实际上 //main方法中所作的所有事情,都与ContentHandler无关。 xmlReader.parse(new File(filename),new SAXCounter()); } catch (SAXException se) { System.err.println(se.getMessage()); System.exit(1); } catch (IOException ioe) { System.err.println(ioe); System.exit(1); } } } |
我们来看看这段程序作了些什么,在main()方法中,主要做的就是创建解析器,然后解析文档。实际上,在这儿创建SAXParser对象的时候,为了使程序代码于具体的解析器无关,使用了同DOM中一样的设计技巧:通过一个SAXParserFactory类来创建具体的SAXParser对象,这样,当需要使用不同的解析器的时候,要改变的,只是一个环境变量的值,而程序的代码可以保持不变。这就是FactoryMethod模式的思想。在这儿不再具体讲了,如果还有不明白的,可以参看上面DOM中的解释,原理是一样的。
不过在这儿还有一点点要注意的地方,就是SAXParser类和XMLReader类之间的关系。你可能有些迷糊了吧,实际上SAXParser是JAXP中对XMLReader的一个封装类,而XMLReader是定义在SAX2.0种的一个用来解析文档的接口。你可以同样的调用SAXParser或者XMLReader中的parser()方法来解析文档,效果是完全一样的。不过在SAXParser中的parser()方法接受更多的参数,可以对不同的XML文档数据源进行解析,因而使用起来要比XMLReader要方便一些。
这个例子仅仅涉及了SAX的一点皮毛,而下面的这个,可就要高级一些了。下面我们要实现的功能,在DOM的例子中已经有实现了,就是从XML文档中读出内容并格式化输出,虽然程序逻辑看起来还是很简单,但是SAX可不比DOM哦,看着吧。
前面说过,当遇到一个开始标签的时候,在startElement()方法中,我们并不能够得到这个标签在XML文档中所处的位置。这在处理XML文档的时候是个大麻烦,因为在XML中标签的语义,有一部分是由其所处的位置所决定的。而且在一些需要验证文档结构的程序中,这更是一个问题。当然,没有解决不了的问题了,我们可以使用一个栈来实现对文档结构的纪录。
栈的特点是先进先出,我们现在的想法是,在startElemnt()方法中用push将这个标签的名字添加到栈中,在endElement()方法中在把它pop出来。我们知道对一个结构良好的XML而言,其嵌套结构是完备的,每一个开始标签总会对应一个结束标签,而且不会出现标签嵌套之间的错位。因而,每一次startElement()方法的调用,必然会对应一个endElement()方法的调用,这样push和pop也是成对出现的,我们只需要分析栈的结构,就可以很容易的知道当前标签所处在文档结构中的位置了。
public class SAXReader extends DefaultHandler { java.util.Stack tags=new java.util.Stack(); //--------------XML Content------------- String text=null; String url=null; String author=null; String description=null; String day=null; String year=null; String month=null; //---------------------------------------------- public void endDocument() throws SAXException { System.out.println("------Parse End--------"); } public void startDocument() throws SAXException { System.out.println("------Parse Begin--------"); } public void startElement(String p0, String p1, String p2, Attributes p3) throws SAXException { tags.push(p1); } public void endElement(String p0, String p1, String p2) throws SAXException { tags.pop(); //一个link节点的信息收集齐了,将其格式化输出 if (p1.equals("link")) printout(); } public void characters(char[] p0, int p1, int p2) throws SAXException { //从栈中得到当前节点的信息 String tag=(String) tags.peek(); if (tag.equals("text")) text=new String(p0,p1,p2); else if (tag.equals("url")) url=new String(p0,p1,p2); else if (tag.equals("author")) author=new String(p0,p1,p2); else if (tag.equals("day")) day=new String(p0,p1,p2); else if (tag.equals("month")) month=new String(p0,p1,p2); else if (tag.equals("year")) year=new String(p0,p1,p2); else if (tag.equals("description")) year=new String(p0,p1,p2); } private void printout(){ System.out.print("Content: "); System.out.println(text); System.out.print("URL: "); System.out.println(url); System.out.print("Author: "); System.out.println(author); System.out.print("Date: "); System.out.println(day+"-"+month+"-"+year); System.out.print("Description: "); System.out.println(description); System.out.println(); } static public void main(String[] args) { String filename = null; boolean validation = false; filename="links.xml"; SAXParserFactory spf = SAXParserFactory.newInstance(); SAXParser saxParser=null; try { saxParser = spf.newSAXParser(); } catch (Exception ex) { System.err.println(ex); System.exit(1); } try { saxParser.parse(new File(filename),new SAXReader()); } catch (SAXException se) { System.err.println(se.getMessage()); System.exit(1); } catch (IOException ioe) { System.err.println(ioe); System.exit(1); } } } |
在这儿虽然没有使用到栈的分析,但实际上栈的分析是一件很容易的事情,应为java.util.Stack继承了java.util.Vector类,而且Stack中的元素是按栈的结构由底至上排列的,因个,我们可以使用Vector类的size()方法来得到Stack的元素个数,还可以使用Vector的get(int)方法来得到具体的每一个元属。实际上,如果把Stack的元素从底向上逐一排列出来,我们就得到了从XML根节点到当前节点的一条唯一的路径,有了这条路径的信息,文档的结构就在清楚不过了。
小节
好了,到这儿为止,我们已经掌握了对于XML编程的两大利器:DOM和SAX,也知道了该如何在一个Java程序中使用它们。DOM编程相对简单,但是速度比较慢,占用内存多,而SAX编程复杂一些,但是速度快,占用内存少。所以,我们应该根据不同的环境选择使用不同的方法。大部分的XML应用基本都可以用它们来解决。需要特别说明的是,DOM和SAX其实都是语言无关的,并非Java所独有,也就是说,只要有相应的语言实现,DOM和SAX可以应用在任何面向对象的语言中。
上面我们介绍了XML文档的读入,内容提取,以及文档添加和修改的一些方法。还有一类的问题就是XML文档的转换,虽然用DOM和SAX也可以解决,但是实现起来很复杂,而应用XSLT就会简单许多。这个问题,笔者将会在以后的文章中再和大家详细讨论。
源代码下载
(责任编辑 吴北 jiaoxq@staff.ccidnet.com)
相关推荐
Java与XML联合编程之SAX篇.docJava与XML联合编程之SAX篇.doc
《Java与XML》(第三版)的内容涵盖了所有主要的Java XML处理库程序,全面讲解了SAX、DOM、StAX、JDOM以及dom4j的应用程序编程接口,同时还囊括了最新版本的用于XML处理的Java应用程序编程接口(JAXP)和用于XML绑定...
《Java与XML》(第三版)的内容涵盖了所有主要的Java XML处理库程序,全面讲解了SAX、DOM、StAX、JDOM以及dom4j的应用程序编程接口,同时还囊括了最新版本的用于XML处理的Java应用程序编程接口(JAXP)和用于XML绑定...
java操作xml编程实例(sax).doc
书中的主题为XML基础,包括DTD、命名空间(namespace)、XML Schema和数据格式转换(Transformation) SAX应用程序编程接口,包括处理器接口、过滤器接口和写出接口 DOM应用程序编程接口,包括DOM第2层、第3层和DOM ...
在这篇文章中,我们将对 Java 中四种主流的 XML 解析技术进行比较和分析。 一、 DOM(JAXP Crimson 解析器) DOM 是一种基于树或基于对象的 XML 解析技术,它是用与平台和语言无关的方式表示 XML 文档的官方 W3C ...
JDOM 是一种 Java 特定文档模型,旨在简化与 XML 的交互并且比使用 DOM 实现更快。JDOM 使用具体类而不使用接口,简化了 API。但是,它也限制了灵活性。JDOM 还大量使用了 Collections 类,简化了那些已经熟悉这些类...
在 Java 中,解析 XML 文件是一件常见的任务,而 JDOM 是一个流行的开源库,用于解析和处理 XML 文件。本文将详细介绍如何使用 JDOM 解析 XML 文件。 JDOM 介绍 JDOM 是一个开源项目,基于树型结构,利用纯 Java ...
java.sql 提供使用 JavaTM 编程语言访问并处理存储在数据源(通常是一个关系数据库)中的数据的 API。 java.text 提供以与自然语言无关的方式来处理文本、日期、数字和消息的类和接口。 java.text.spi java.text ...
本文简要的讨论了Java语言编程中更新XML文档的四种常用方法,并且分析这四种方法的优劣。其次,本文还对如何控制Java程序输出的XML文档的格式做了展开论述。 JAXP是Java API for XML Processing的英文字头缩写,中文...
1 JAVA SE 1.1 深入JAVA API 1.1.1 Lang包 1.1.2 集合类 1.1.2.1.1 日期类Date ...3.7 Java与XML联合编程之SAX篇 3.8 Java与XML联合编程之DOM篇 4 其他 4.1 代码复用的规则 4.2 Java IO 包中的Decorator模式
它还可以在任何时候在树中上下导航,而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。 2)SAX SAX处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用...
第2章给了我们基本语法概念,第3章告诉我们如何以一种每个XML编程者都能够理解的方式正规地定义XML词汇表。这些章节提供了理解和使用XML所必需的最基本内容。第4章(关于数据建模)在创建良好的XML结构方面为读者...
java.sql 提供使用 JavaTM 编程语言访问并处理存储在数据源(通常是一个关系数据库)中的数据的 API。 java.text 提供以与自然语言无关的方式来处理文本、日期、数字和消息的类和接口。 java.text.spi java.text ...
本文简要的讨论了Java语言编程中更新XML文档的四种常用方法,并且分析这四种方法的优劣。其次,本文还对如何控制Java程序输出的XML文档的格式做了展开论述。 JAXP是Java API for XML Processing的英文字头缩写,中文...
第4 章数据建模与XML 第5 章文档对象模型 第6 章SAX 1.0 :XML 简易API 第7 章命名空间和模式 第8 章链接和查询 第9 章转换XML 第10 章XML 和数据库 第11 章服务器到服务器 第12 章电子商务和XML ...
java.sql 提供使用 JavaTM 编程语言访问并处理存储在数据源(通常是一个关系数据库)中的数据的 API。 java.text 提供以与自然语言无关的方式来处理文本、日期、数字和消息的类和接口。 java.text.spi java.text ...
实例69 使用SAX解析XML 实例70 使用JDOM解析XML 实例81 SERVLET读取COOKIE数据 实例86 JSP使用数据连接池 实例99 连接数据库 实例100 上传文件 面试题(很多企业都常常从这些面试题库中选题作为笔试题): Java就业...