网页内容提取的重要性不仅是内容的数量,还包括其他重要的方面,如:
(1)浏览任何网站:模式识别系统使用文档分析技术可以在很小的显示设备上展示网页,通过提取和总结网页内容。
(2)高速接入:网页的需要很快的更新
(3)带宽的使用:网页的更新应该降低网络拥堵
(4)简单配置:任何方式的提取对于SI和用户在已经存在的系统上是容易配置的
(5)快速开发:
(6)可移植
对网页有效内容抽取在无线网络方面很重要。有很多方法可以实现内容抽取,一种方法是将HTML按照它的结构分成区域。一旦区域定义了,基于内容分析的属性也可以得出。但是从相互独立的区域提取内容不是完全的解决方案。这些区域含有相关内容,同时它可能在显示区域内容时没有考虑到这一点。这个问题可以通过下面三种方法解决。
(1)邻域分析:这种方法基于临近位置进行关系分析。这些区域的原始顺序在某些情况下可以作为指示建立很强的关系。
(2)内容分类:从相互独立的区域中提取的内容可以被分解为不同的种类,使用临近位置内容的分类可以作为建立不同区域间逻辑地图的工具。
(3)第三种基于包含内容语法和矢量模型的使用自然语言处理技术。这种方法使用知识模型和信息检索技术来确定不同区域块之间的关系。
当不同区域块之间的关系确定之后,可以将内容建立一个意义明确和有效的模型,能够满足显示屏较小的需求。
下面为需要实现的过程:
(1)结构分析:分析每一个网页的结构;
(2)分解:基于每个提取的网页结构分解文档;
(3)内容分析:对半结构化文档进行内容分析得到当前分解的结构的一个摘要;
(4)DOC内容表:将所有分解文档的摘要拼接在一起作为整个文档的摘要,保存为一条Table of Content信息。
(5)TOC排序:TOC的顺序取决于分解文档的原始顺序,但是这种原始顺序经常被误认为最用意义或者最重要的信息。所以,分析每个分解文档块的内容,并且基于它们之间相互重要性重新排序,并显示出来。
这种方法基于网页结构分析提取网页内容,基于不同区域块的重要性和逻辑关系,对文档分类可以得到文档中有效的内容。这种文档分析的方法可以将内容连接为有意义的、可以理解的,并且可用的代表内容。
分享到:
相关推荐
Structure Extraction from Texture via Relative Total Variation 论文,代码,测试图像和ppt
Information extraction from World Wide Web—a survey.pdf希望对大家有所帮助。
从文档评估和生成器中提取关键信息_Key Information Extraction From Documents Evaluation And Generator.pdf
基于 Bert 的信息抽取(information extraction),关系提取 (relation extraction)
Information_Extraction_from_the_Web
python实现特征提取深度学习,最详细的代码讲解,欢迎大家多多交流。
Office Image Extraction Wizard (Office文档图像提取工具) 提取Office文档中的图像资源
A framework for feature extraction from hospital medical data with applications in risk prediction
Extraction
基于维基百科的领域术语自动抽取方法研究,魏笔凡,刘均,维基百科包含大量领域术语,可用于本体构建、自动摘要生成及其他自然语言处理任务。领域术语的自动抽取是知识获取及本体构建的基
Information Extraction_ Distilling Structured Data from Unstructured Text
借助数据库逆向工程从关系数据库抽取OWL本体,林莉莉,许卓明,语义网的主要目的是通过让用户更容易地发现、共享与集成信息来促使万维网演化,OWL本体在这种努力中发挥着关键作用。由于当前万维
FASTUS A Finite-state Processor for Information Extraction from
高分辨率地图路径提取方法,matlab实现。运算速度较快。主要是一些图像处理方法。可以参考使用,调整参数。
一篇不错的机载激光雷达道路信息提取相关文档
Fast Extraction of Viewing Frustum Planes from the World-View-Projection Matri 游戏工业最流行的视锥裁减算法的出处。
一篇关于视频流中的车牌检测很好的文章,作者来自西门子
此模型包含基于matlab编写的m文件,和GUI。可用于对论文和图片上的数据进行提取,操作简单,可直接运行,功能比getdata强
从文本文件或者指定网页 获取所有email 信息