`
csstome
  • 浏览: 1476273 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

解决HtmlAgilityPack中文乱码

阅读更多

Html Agility Pack是用C#写的开源Html Parser。

在抓取163首页(http://www.163.com)代码如下:


不过有点问题是抓取的Code乱码了。

通过跟踪代码发现通过修改HtmlWeb.cs 中的第1466行(1.4.0.0版) 文件可以解决这个问题。

方法名为:

privateHttpStatusCodeGet(Uriuri,stringmethod,stringpath,HtmlDocumentdoc,IWebProxyproxy, ICredentialscreds)

原始实现源代码:

修改后的代码:


重新编译一下,就不会中文乱码了...

分享到:
评论
1 楼 liuweihug 2014-04-08  
.Net解析html文档类库HtmlAgilityPack完整使用说明--采集软件开发尤其好用 - 项目实战 - IT工作生活这点事。Just Such So!
http://www.suchso.com/projecteactual/netpausehtmldocumentclasslibHtmlAgilityPackcaiji.html

相关推荐

Global site tag (gtag.js) - Google Analytics