网页抓取小结 - 一花一世界 - ITeye博客

`

ctrain

浏览: 133227 次
性别:
来自: 深圳

最近访客更多访客>>

我爱死了java

zywang_inst

waterfire119

umbrellall1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

c_lzs： good!!!!!!!!!!!!!!!!!
itext生成只读pdf文档
okbey333：谢谢，困扰了好久
安装好maven，在dos下输入mvn -version，提示不是内部命令的问题
ctrain：我很少上Iteye，只是偶尔会在上面查查资料，jeecms是以 ...
Jeecms之new标签实现
ctrain：不好意思，我也记不清了，3，4年前做的了，我现在换公司了，也没 ...
Jeecms之new标签实现
夜曲6763：跟7楼一样的问题。。。
Jeecms之new标签实现

网页抓取小结

博客分类：

J2EE

阅读更多

    网页抓取步骤：
     1.将页面转化为流(或字符串)
    2.将流保存为.xml文件(主要目地是为了处理中文乱码问题，xml文件为临时文件)
    3.将xml转化为流，用Jtidy进行html格式化处理，并将处理好后的流转化为dom树
    4.将dom树转化为xpath可以解析的InputSource
    5.用xpath进行解析

     代码暂不演示。
     补充：
     1.如果要使用文件保存，可利用线程名来命名文件，避免出现IO异常。另外可将流直接转化为String，再将String转化流供Jtidy处理。
     2.如果服务器为IBM AIX，则要注意啦，在此机器下虽经Jtidy处理，但是仍然有些标签不会封闭，没有封闭的标签Xpath是会出现解析异常的。
     3.AIX对某些标签的处理和windows及linux不同，需要多加注意。有些标签在windows下解析没问题，但是在AIX下就会出问题。

分享到：

乔布斯的10大管理诫律 | 没计划的生活就是浪费时间

2011-10-06 22:13
浏览 877
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

用Python写网络爬虫PDF-理查德劳森（Richard Lawson）: 2.2 三种网页抓取方法 26 2.2.1 正则表达式 26 2.2.2 Beautiful Soup 28 2.2.3 Lxml 30 2.2.4 性能对比 32 2.2.5 结论 35 2.2.6 为链接爬虫添加抓取回调 35 2.3 本章小结 38 第3章下载缓存 39 3.1 为链接...

用Python写网络爬虫.pdf: 2．2　三种网页抓取方法　26 2．2．1　正则表达式　26 2．2．2　Beautiful Soup　28 2．2．3　Lxml　30 2．2．4　性能对比　32 2．2．5　结论　35 2．2．6　为链接爬虫添加抓取回调　35 2．3　本章小结　38 第3章　...

Java爬虫Jsoup+httpclient获取动态生成的数据: 主要介绍了Java爬虫Jsoup+httpclient获取动态生成的数据的相关资料,需要的朋友可以参考下

Python爬虫教学视频-最全的Python爬虫视频教程全集: 2agent代{过}{滤}理解决网站屏蔽3agent也可以冒充手机或者ipad浏览器4get模拟百度5get模拟智联招聘6get小结7post通信8postogi 9get与post小结 10综合应用模拟android手机浏览器11本地代{过}{滤}理12代{过}{滤}理密码...

最全的Python爬虫视频教程全集: 6get小结 7post通信 8postcgi 9get与post小结 10综合应用模拟android手机浏览器 11本地代{过}{滤}理 12代{过}{滤}理密码验证 13下载 14重定向 15加密网址的访问 16debug调试 17readcookie 18save与Loadcookie 19人人...

自己动手写搜索引擎(罗刚著).doc: 1.4 本章小结 4 第2章遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境（10分钟） 5 2.1.2 编写代码（15分钟） 6 2.1.3 发布运行（5分钟） 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 ...

Python程序设计：Scrapy爬虫框架的使用.pptx: Scrapy爬虫框架笔趣阁小说抓取知识点：Scrapy爬虫框架使用 Scrapy爬虫框架使用 scrapy爬虫开发的基本步骤新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目明确目标（编写items.py）：...小结谢谢观看

白帽子讲浏览器安全.钱文祥(带详细书签).pdf: 1.8 本章小结 12 2 浏览器中常见的安全概念 13 2.1 URL 13 2.1.1 URL的标准形式 15 2.1.2 IRI 16 2.1.3 URL的“可视化”问题——字形欺骗钓鱼攻击 18 2.1.4 国际化域名字形欺骗攻击 19 2.1.5 自纠错与Unicode...

大数据爬虫技术第1章初识爬虫.ppt: 如果说网络像一张网，那么爬虫就是网上的一只小虫子，在网上爬行的过程中遇到了数据，就把它抓取下来。网络爬虫，又称为网页蜘蛛、网络机器人，是一种按照一定的规则，自动请求万维网网站并提取网络数据的程序或...

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx: 本系统采用Scrapy爬虫框架来开发，使用Xpath网页提取技术对下载网页进行内容解析，使用Redis做分布式，使用MongoDB对提取的数据进行存储，使用Django开发可视化界面对爬取的结果进行友好展示，设计并实现了针对链家...

Case-Pendency:在印度法院进行案件待审的交互式可视化: 我已经使用rvest和xml2 R软件包从国家司法数据网格中抓取了数据，该数据在html表中存储在多个网页上。我用tidyverse ， flexdashboard ， shiny ， plotly ， sf ， ggrepel和scales R封装及其依赖的仪表板本身。...

Python基础教程（第3版）-201802出版-文字版: 16 1.11 小结 ....................................................... 21 1.11.1 本章介绍的新函数 ................... 21 1.11.2 预告 .......................................... 22 第 2章列表和元组 .......

大数据处理：大数据概述.pdf: 4 什么是大数据数据量超过一定大小，导致常规软件无法在一个可接受的时间范围内完成对其进行抓取、管理和处理的工作的数据，例如：互联网上的网页数据社交网站上的用户交互数据物联网中产生的活动数据电信...

VB网络编程实例: ◆ 54.htm 如何利用Winsock控件编写自己的Internet程序 ◆ 55.htm 如何每天抓取 Internet 上某一个网页中的图片来更换桌面的壁纸？ ◆ 56.htm 如何启动拨号网路中的连线？ ◆ 57.htm 如何使用...

GIT中文资源: 1.7 小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 Git 基础 13 2.1 取得项目的 Git 仓库 . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.1 从当前目录初始化 . . . . . . ...

Linux操作系统基础教程: Linux 操作系统基础教程清华大学信息学院计算机系目录前言..........................................................................................................................................

Global site tag (gtag.js) - Google Analytics