`

使用PHP 開源類來分析HTML

阅读更多

Sourceforge上有一个PHP的分析类,可以从这里下载 。  

 

采用PHP5+开发的一个简单的PHP HTML DOM分析,支持invalid HTML并提供非常简单的方式来操作HTML元素。在HMTL页面上查找标签所使用的语法与jQuery(一个轻量级,实用的javascript框架)相似。从页面中抽取内容只需要一行代码。

請參考 http://simplehtmldom.sourceforge.net/

特色


1. 只支持PHP5以上
2. 可以分析不怎么严谨(invalid)的HTML代码
3. 支持简单的CSS Selector.
4. 支持简单的DOM操作
5. 保持HTML中的原始格式

 

$html = file_get_html($url);

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';



// Find all links
foreach($html->find('a') as $element){
/* 出來的效果大概是這樣
http://www.phpfans.net/manu/javascript/    a   
 <a href="http://www.phpfans.net/manu/javascript/" target="_blank">javascript 手册</a>    
 javascript 手册    javascript 手册
 <br>http://www.phpchina.com/    a    <a href="http://www.phpchina.com/" target="_blank">PHPChina</a>    PHPChina    PHPChina<br>
http://www.phpfans.net/    a    <a href="http://www.phpfans.net/" target="_blank">php爱好者</a>    php爱好者    php爱好者 <br>http://www.phpv.net/    a    <a href="http://www.phpv.net/" target="_blank">PHP5研究室</a>    PHP5研究室    PHP5研究室<br><br> <br>http://www.phpx.co
*/
	 echo $element->href .'    '. $element->tag 
	 .'    '. $element->outertext .'    '. $element->innertext .'    '. $element->plaintext	 .'<br>'; 
       
}
 

deme頁:  http://wasa.sinaapp.com/demo/curl.php




參考轉載于 : 使用PHP简单分析HTML

 

分享到:
评论

相关推荐

    java开源包8

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包6

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包9

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包10

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    基于PHP+Html+mysql的客户关系管理CRM系统.zip

    2)为了更加精确的管理客户,进行客户评估,开发新客户,系统将客户的购买的产品、数量、金额、交易完成情况等信息进行记录整合分析,还收录客户的售后评价等反馈信息,便于员工系统地分析评估,改善服务。...

    JAVA上百实例源码以及开源项目

    2个目标文件,FTP的目标是:(1)提高文件的共享性(计算机程序和/或数据),(2)鼓励间接地(通过程序)使用远程计算机,(3)保护用户因主机之间的文件存储系统导致的变化,(4)为了可靠和高效地传输,虽然用户...

    java开源包1

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    EaglePHP 开源框架 v 1.7 发布

    EaglePHP,是一款开源、高效、面向对象的PHP MVC开发框架,完全基于PHP5可用于开发WEB程序和服务,借鉴国外优秀框架的设计思路,分层的设计思想使独立开发成为可能,建立模型推动代码的重用,有助于促进快速软件开发...

    java开源包2

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包3

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包5

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包11

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包7

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包4

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包101

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    JAVA上百实例源码以及开源项目源代码

    EJB中JNDI的使用源码例子 1个目标文件,JNDI的使用例子,有源代码,可以下载参考,JNDI的使用,初始化Context,它是连接JNDI树的起始点,查找你要的对象,打印找到的对象,关闭Context…… ftp文件传输 2个目标文件...

    PbootCMS是翱云科技开发的全新内核且永久开源免费的PHP企业网站开发建设管理系统.zip

    PbootCMS是翱云科技开发的全新内核且永久开源免费的PHP企业网站开发建设管理系统,是一套高效、简洁、 强悍的PHP CMS源码,能够满足各类企业网站开发建设的需要。系统采用简单到想哭的模板标签,只要懂HTML就可快速...

    php代码调试工具,sql追踪器

    直接网页打开 “工具使用视频教程.html” 文件全屏就可以观看视频 一个中国人开发的php工具箱, 翻倍提高开发效率 此工具能几秒钟追踪出sql 数据库操作, 能几分钟内分析任意项目系统数据库表结构 瞬间无刷新测试 ...

    21行业网 v6.1 开源版_仿百度搜索引擎(带蜘蛛程序).rar

    仿百度搜索引擎,仿谷歌搜索引擎软件蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unicode等网页编码; 文件类型证察防止非文本类型文件采集; 蜘蛛可以采集ASP...

Global site tag (gtag.js) - Google Analytics