`
totoxian
  • 浏览: 1041504 次
  • 性别: Icon_minigender_2
  • 来自: 西安
文章分类
社区版块
存档分类
最新评论

网页切片算法的若干问题

阅读更多
这是我研究网页切片算法的一个汇总想法。
之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示 ,随着工作的深入,逐渐碰到以下问题:

网页切片的粒度问题:
网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。

网页切片的网页对象:
互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。
网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?

网页内容区最大范围识别:
从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。

如果处理分页的内容型网页:
现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。

无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:


蜗牛发表于2006-02-21 12:40 AMIP: 220.184.129.*
我那天用浮动的<div>用绝对位置定位代替<table>定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。

弄死他。看他怎么分析。

这样的算法太依赖于具体实现了,很难有好的解决办法。

况且,现在依赖客户端脚本展现动态表现力慢慢开始流行,这个算法很难适应未来的潮流。

就拿最简单的,我有一个类似于OutLook工具条的页面风格,都是脚本生成的,我看他怎么分析!

视觉分析只能落脚到视觉上,只能对页面的静态画面作分析才能得到正确的条块分割,分割条块是容易的简单算法就能做到,但是要把这些内容归结到分割到的条块是难的。

好的办法只有一个,模拟鼠标击键,击键处的对象返回响应,这在IE能够实现的。这样才能取得分割好条块后的对象归属。

我怎么想都觉得我的简单算法都要比文中的算法强多了。

视觉依靠画面分割条块,很简单,对空白进行膨胀-缩小算法,这样留白就能逐渐清晰出来,文字就模糊了。然后作模糊处理,然后用一个亮度阈值把图片转换成二值图,然后作一个矢量化处理,留下线条。归结到90度和0度上去,得到一个条块分割的矢量图。

然后,每一块中按照密度用鼠标点击模拟获得对象!这样就可以完成了条块归纳了。

干吗要分析HTML呢?情况多得很,根本分析不过来。

我目前的进展是:可以识别 导航区、链接区、页脚区。
对内容区的分析是个难点,鉴于我自己的需要,只要找到最大的内容区就可以了。

这段时间对算法的一个体会就是,算法就是解决特定问题的方法。教科书上的算法大都是最一般性,常用性的方法的说明。
套句俗话,能解决实际问题的方法就是好方法。但能把我们解决的问题用数学模型表达出来仍是一个不断提高算法水平的基本要求。

感兴趣的可以看看: primary number hitched 42 就是生命、宇宙和zeta函数的答案?






分享到:
评论

相关推荐

    基于粒子群优化算法的5G网络切片功能迁移机制

    该机制基于粒子群优化算法,将虚拟机模拟成粒子,每次迁移过程中,将所有的粒子分成若干个子群,在群内和群间同时应用粒子群优化算法,参照历史最优解和当前全局最优解更新粒子位置,通过选取标记因子较小的粒子实时...

    锥束CT的分区短扫描FDK重建算法 (2009年)

    本文分析了短扫描FDK算法(shortscanFDK,SS-FDK)重建时的数据完整性,提出了根据重建切片高度自适应地将重建切片分成若干区域,对每个区域采用SS-FDK算法进行重建的分区短扫描FDK重建算法。理论分析及试验仿真表明,该...

    Cura_14.06.1-中文版

    更新切片引擎 修复若干问题 更新内置固件 新增乐享3D独创的收缩补偿算法 完美解决零件缩孔问题

    Cura_14.06.1.tar——3D打印软件

    更新切片引擎 修复若干问题 更新内置固件 新增乐享3D独创的收缩补偿算法 完美解决零件缩孔问题

    基于锥束CT切片图像的复杂零件三维表面重构 (2006年)

    提出了一种面向复杂零件的三维表面重构新方法:首先采用3D亚体素边缘检测算法提取序列切片图像的高精度封闭轮廓,并重构出切片轮廓的拓扑信息,然后采用一种改进的基于截面属性的轮廓分割算法得到若干组局部结构轮廓...

    论文研究-视频监控系统中的图像分割算法综述.pdf

    视频监控系统在智能安防、人机交互、交通、娱乐、军事等领域有着广泛的应用空间,是近来研究热点之一。...从时间分割法和空间分割法的分类角度出发,对国内外的视频监控研究中的若干目标分割方法进行了归纳总结。

    基于深度学习的无人机航拍车辆检测.pdf

    该算法首先将大尺寸航拍图像切分成若干有重叠区域的小图像块,然后将各图像切片依次输入检测网络,主干网络针对输入图像提取不同尺度的特征,并对3 种尺度的特征进行融合以获取不同的感受野,同时解决了浅层特征语义...

    基于互联网的3D复杂场景渲染算法研究 (2003年)

    我们提出了一个可供选择的方法,将每个纹理细分为若干个切片,然后在客户端进行动态控制哪些切片应该是用户可见的。客户端对纹理切片请求是按照各个纹理切片所影响的屏幕像素点数目顺序依次进行的,因此首先传输的就是...

    第4讲_分布式计算框架mapreduce.pdf

    Map阶段是MapReduce程序的第一阶段,输入是Split切片,输出是中间计算结果。Map阶段由若干Map任务组成,任务数量由Split数量决定。Map任务将中间结果写入专用内存缓冲区Buffer,进行Partition和Sort。 Reduce阶段是...

    MimicsInnovationSuite(医学3D成像软件)20.0中文特别版版

    基于这两大主要特性,Mimics Innovation Suite 配备的最新工具和强大算法使3D重建与特定场景的分析实现了前所未有的平顺。模型切片加快得益于智能化编辑工具和现场3D预览模式。闪电吧推荐下载! 新型拆分工具将两个...

Global site tag (gtag.js) - Google Analytics