`
fishermen
  • 浏览: 374436 次
社区版块
存档分类
最新评论

xml 构造及解析时的非法字符问题

阅读更多

      系统交互会用到xml,如果直接构造xml的字串,很容易出现非法字符,所以一般推荐,使用dom4j 先构造合法的xml obj,然后再转为字串。但实际上,即便如此,如果遇到xml的非法字符,即便构造xml obj成功,最后转的xml 字串也是有问题。

 

      xml的无效字符包含ascii值在32以下的三段:0x00-0x08, 0x0b-0x0c, 0x0e-0x1f。在字串中有这些特殊字符时会出现解析错误。dom4j的Element可以设置这些字符,不幸的是,却无法再解析出来。

 

      解决办法:轮询字串的char数组,找出这些字符扔掉即可。方法如下:

 

public static void main(String[] args) throws Exception{		
		String invalidStr = "测试特殊符号“”";
		String validStr = toValidXmlStr(invalidStr);
		Element e = DocumentHelper.createElement("text");		
		e.setText(validStr);
		System.out.println(validStr);
		System.out.println(DocumentHelper.parseText(e.asXML()).asXML());
		
		
	}
	
	/**
	 * filter the invalid xml characters:
	 * <ol> 
     *  <li>0x00 - 0x08</li> 
     *  <li>0x0b - 0x0c</li> 
     *  <li>0x0e - 0x1f</li> 
     * </ol> 
	 * @param xmlStr
	 * @return
	 */
	private static String toValidXmlStr(String xmlStr){
		StringBuilder sbud = new StringBuilder();
		for(char c : xmlStr.toCharArray()){
			if(!(0x00 < c && c < 0x08 
					|| 0x0b < c && c < 0x0c
					|| 0x0e < c && c < 0x1f)){
				sbud.append(c);
			}
		}
		return sbud.toString();
	}

 

      如果直接用invalidStr 进行setText(),虽然此处不报错,但是再解析的时候会报 invalid xml character的异常。

分享到:
评论
1 楼 abcdefg_abc 2010-10-28  
如果xml文件超过100k,这个过滤方法的性能就慢的可观了,期待有个更高效的办法来过滤0x00-0x08, 0x0b-0x0c, 0x0e-0x1f这三段无效字符

相关推荐

Global site tag (gtag.js) - Google Analytics