HtmlParser主要靠Node、AbstractNode和Tag来表达Html
1. Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过滤方法,定义了Visitor访问机制。
2. AbstractNode是Node的一种具体的类实现,起到构成树形结构的作用,除了同具体Node相关的accetp方法,toString,toHtml,toPlainTextString方法以外,AbstractNode实现了大多基本的方法,使得它的子类,不用理会具体的树操作。
3. Tag是具体分析的主要内容。Tag分成composite的Tag和不能包含其他Tag的简单Tag两类,其中前者的基类是CompositeTag,其子类包BodyTag,Div,FrameSetTag,OptionTag,等27个子类;而简单Tag有BaseHrefTag、DoctypeTag,FrameTag,ImageTag,InputTag,JspTag,MetaTag,ProcessingInstructionTag这八类。
分享到:
相关推荐
HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析
关于用java写的htmlparser网页分析
按DOM模型解析html文件的工具包 已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取...它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community 1.8
htmlparser(HTML页面解析)例子
c#版htmlparser htmlparser.dll htmlparser源代码
htmlparser[1]是一个纯的java写的html(标准通用标记语言下的一个应用...毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。 无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。
htmlparser解析API,希望对解析代码的伙伴们有帮助
Html解析助手htmlparser.jar。Html解析助手htmlparser.jar
htmlparser进行网页信息的抽取,里边有实例
HTMLParser.net源代码HTMLParser.net使用demo
htmlparser.jar htmlparser教程
htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载
htmlparser 解析wap页面可用
htmlparser2.0 htmlparser
Htmlparser,Jar包,Java,页面解析
htmlparser是一款小而强大的解析Html 的第三方工具包,内含jar包和源文件包(两个),htmlparser1.6.jar,htmlparser1.6_src.jar,非常有用的
HtmlParser源码及demo