HttpClient对URL编码的处理方式解惑！

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 16579 次

锁定老帖子主题：HttpClient对URL编码的处理方式解惑！精华帖 (0) :: 良好帖 (1) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
NetBus 等级: 性别: 文章: 76 积分: 180 来自: 北京	发表时间：2007-03-16 相关推荐: ORACLE解析SOAPXML报文，xmltype extractvalue extract LPX-00210 中文乱码 oracle存储xml乱码,EBS xml publisher中文乱码问题及解决办法是oracle 解析XML文件中文字符是乱码问题？ java解析xml中文字符乱码_各种Java中文乱码的处理方法 oracle10解析大xml出错,Oracle SPA取报告阶段xml解析失败解决方案更多相关推荐 HttpClient是Apache基金下jakarta commons项目中的一个小项目，该项目封装了对远程地址下载的一些功能，最新版本为3.0。该项目地址：http://jakarta.apache.org/commons/httpclient 最近在编写Spider的时候就用到了HttpClient。在使用过程中发现一个有趣现象：有些URL的编码方式是utf-8，有些URL的编码方式是gbk。他总能够正确识别，但是有些他又不能识别(抓取回来后是乱码)。调用的是：httpMethod.getResponseBodyAsString(); 方法。在进行进一步分析时，发现他对在http头信息中有charset描述的就正确正常识别。如： HTTP/1.1 200 OK Connection: close Content-Type: text/html; charset=utf-8 Set-Cookie: _session_id=066875c3c0530c06c0204b96db403560; domain=iteye.com; path=/ Vary: Accept-Encoding Cache-Control: no-cache Content-Encoding: gzip Content-Length: 8512 Date: Fri, 16 Mar 2007 09:02:52 GMT Server: lighttpd/1.4.13 而没有charset描述信息时，就会是乱码。再查看相关文档时，可以指定URL的编码方式。如：HttpClientParams.setContentCharset("gbk");，指定了编码后，就能够正确识别对应编码的URL了。问题出现了，因URL编码不一样，Spider不可能把URL的编码方式写死。并且只有在抓取回来后才知道编码是否正确。于是再仔细研究一下httpclient的源代码，发现他使用编码的顺序是：http头信息的charset，如果头信息中没有charset，则查找HttpClientParams的contentCharset，如果没有指定编码，则是ISO-8859-1。 /** * Returns the character set from the `Content-Type` header. * * @param contentheader The content header. * @return String The character set. / protected String getContentCharSet(Header contentheader) { LOG.trace("enter getContentCharSet( Header contentheader )"); String charset = null; if (contentheader != null) { HeaderElement values[] = contentheader.getElements(); // I expect only one header element to be there // No more. no less if (values.length == 1) { NameValuePair param = values[0].getParameterByName("charset"); if (param != null) { // If I get anything "funny" // UnsupportedEncondingException will result charset = param.getValue(); } } } if (charset == null) { charset = getParams().getContentCharset(); if (LOG.isDebugEnabled()) { LOG.debug("Default charset used: " + charset); } } return charset; } /* * Returns the default charset to be used for writing content body, * when no charset explicitly specified. * @return The charset */ public String getContentCharset() { String charset = (String) getParameter(HTTP_CONTENT_CHARSET); if (charset == null) { LOG.warn("Default content charset not configured, using ISO-8859-1"); charset = "ISO-8859-1"; } return charset; } 这个该死的iso-8859-1害了多少人啊(Tomcat对提交的数据处理默认也是iso-8859-1)！！经过仔细思考后，决定httpclient再封装一次，思路如下：先不设定HttpClientParams的charset； executemethod后，再检查http头信息中的charset是否存在；如果charset存在，返回httpMethod.getResponseBodyAsString(); ；如果charset不存在，则先调用httpMethod.getResponseBodyAsString();得到html后，再分析html head的meta的charset <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">；从meta中分析出charset后，设置到HttpClientParams的contentCharset；再调用httpMethod.getResponseBodyAsString()，并返回该值。经过以上思路处理后，发现抓回来的URL再也没有乱码了。爽！以上步骤中，就是第四步稍微麻烦一些，不过，也可以利用第三方的html paser工具来分析meta的charset！如果没有特别注明，本Blog文章岂为原创。转贴请注明出处： http://netbus.iteye.com 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

caocao 等级: 文章: 125 积分: 315 来自: 上海	发表时间：2007-03-16 有些网页里面连meta charset也没有的时候咋办呀建议直接拿返回的Stream开刀，拿到byte[]，可以用utf-8尝试解码、分词得到所有汉字词语总数，再用gbk解码，分词也得到一个总数，绝大多数情况下两个统计总数相差悬殊，选大的那个就是了，试试看 ;) 另，这个分词算法可以相当简单，正向最大匹配即可。
返回顶楼	回帖地址 0 0 请登录后投票

NetBus 等级: 性别: 文章: 76 积分: 180 来自: 北京	发表时间：2007-03-17 你这种搞法太费时了，byte to String和分词是一个非常慢的过程。对于中文来说，服务器文件编码无非就是utf-8或者gbk(gb18030)，如果header中没有charset信息，那么meta中肯定是有的。如果meta中都没有charset信息，那说明这个网页可能是小学生弄出来。退一万步讲如果从meta中取不出来的话，那就只有硬编码采用gbk了，毕竟采用gbk编码的网站要多一些！
返回顶楼	回帖地址 0 0 请登录后投票

presses 等级: 性别: 文章: 70 积分: 121 来自: 中山	发表时间：2007-03-17 我的步聚：１：httpMethod.getResponseBody　返回byte[] 2:用new String(byte[],"iso-8859-1")转为String.因为meta里的字符为英文，所以无论html为什么编码，只要里面的meta里有编码信息都能正确显视。（经过几十万个网页的测试，header里有编码信息的网页不足20%,meta里有编码信息的网页超过99.8%） 3:用正则表达式查找meta里的编码是什么。 4:再用new String(byte[],"编码")。经过几十万个网页的测试，这个方法几乎没什么问题，性能也还可以。但话说回来，我觉得httpclient比java.net.URL好用的地方是他可以方便地维护http中的session（cookies).如果只是写一般的spider，还不如直接用URL来得直接。
返回顶楼	回帖地址 0 0 请登录后投票

caocao 等级: 文章: 125 积分: 315 来自: 上海	发表时间：2007-03-19 NetBus 写道你这种搞法太费时了，byte to String和分词是一个非常慢的过程。对于中文来说，服务器文件编码无非就是utf-8或者gbk(gb18030)，如果header中没有charset信息，那么meta中肯定是有的。如果meta中都没有charset信息，那说明这个网页可能是小学生弄出来。退一万步讲如果从meta中取不出来的话，那就只有硬编码采用gbk了，毕竟采用gbk编码的网站要多一些！我建议的方式是对上述的补充，就是对付小学生搞的网页，既然99.9%都两者必有其一，剩下0.1%用我这个算法也不算慢哦。我这个算法是基于内容含义来判断编码，理论上准确率相当高，假设不看charset，就算写网页的人把charset写错了也可以准确解码。
返回顶楼	回帖地址 0 0 请登录后投票

NetBus 等级: 性别: 文章: 76 积分: 180 来自: 北京	发表时间：2007-03-20 楼上的，你说得也有道理，你这种搞法属于内容分析后的结果。适合0.1%的情况，不过，写程序也需要你这种精神。尽可能的捕捉到所有的可能，并且做好相应的处理程序。
返回顶楼	回帖地址 0 0 请登录后投票

maxima 等级: 初级会员文章: 23 积分: 43 来自: ...	发表时间：2007-08-17 最近也在使用httpclient，遇到问题就是url带中文时httpclient无法识别url，请教lz怎么解决比如url="http://www.blcu.edu.cn/financial/musicclub/02-sunyanzi/CD3/05%20-%20星期一天气晴我离开你.mp3" 调用： GetMethod getMethod = new GetMethod(url); 报url异常：java.lang.IllegalArgumentException: Invalid uri 'http://www.blcu.edu.cn/financial/musicclub/02-sunyanzi/CD3/05%20-%20星期一天气晴我离开你.mp3': escaped absolute path not valid at org.apache.commons.httpclient.HttpMethodBase.<init>(HttpMethodBase.java:219) at org.apache.commons.httpclient.methods.GetMethod.<init>(GetMethod.java:88)
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: