场景描述:
过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 , 的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了 seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:
1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)
2. 从全文去标题后,将 之间的内容切割(按 _ | -)为 a1,a2,a3,a4,然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止 。左侧失败后,再继续向右迭代,同理. (这里我采用的是这种方法)
<?php
/**
* @author pqcc <struts.ec@mgail.com>
* @date: 2011-06-18
* Description: 给定一个网页内容,提取网页的标题. 提取的标题不包括 seo 关键字.
* e.g: 一篇新闻标题的从<title>直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网",
* 但我们希望的结果是:"大学英语四六级本周六开考 909万人参考".
* 适用范围: 文章最终页标题的提取, 不包括专题页等.
*/
class TitlePurify{
private $matches_preg = '[-_\s|—]';
function getTitle($contents){/*{{{*/
$preg = "/<title[^>]*>([\w|\t|\r|\W]*?)<\/title>/i";
preg_match($preg, $contents, $matches);
if(count($matches)<=1){
return "标题抽取失败";
}
$title = $matches[1];
return $this->trimTitle($title, $contents);
}/*}}}*/
function trimMeta($contents){/*{{{*/
// 首先去除 <title> 内容, <meta> 内容.
$preg = "/<title[^>]*>([\w|\t|\r|\W]*?)<\/title>/i";
$contents = preg_replace($preg, '', $contents);
$preg = "/<meta[^>]*>/i";
$contents = preg_replace($preg, '', $contents);
return $contents;
}/*}}}*/
// 获取长度最长的 item 所处的index.
function getMaxIndex($titles){/*{{{*/
$maxItemIndex = 0;
$maxLength = 0;
$loop = 0;
foreach($titles as $item){
if(strlen($item)>$maxLength){
$maxLength = strlen($item);
$maxItemIndex = $loop;
}
$loop++;
}
return $maxItemIndex;
}/*}}}*/
function trim($title, $titles, $contents, $maxItemIndex){/*{{{*/
//@todo : 此处可优化contents
// 如果查找成功. result = tempTitle.
$tempTitle = $titles[$maxItemIndex];
$result = $tempTitle;
$count = count($titles);
// while 从当前index 向左进行迭代(直到到达第一个或者匹配失败才中止).
$leftIndex = $maxItemIndex-1;
while(true && $leftIndex>=0){
// tempTitle+左一个.
preg_match("/({$this->matches_preg}+{$tempTitle})/i", $title, $matches);
if(count($matches)>1){
// temp 用于匹配失败后,进行回滚.
$temp = $titles[$leftIndex] . $matches[1];
$tempTitle = $titles[$leftIndex] . $matches[1];
// 继续拿着 tempTitle 去匹配.
preg_match("/$tempTitle/i", $contents, $matches);
// 如果查找失败....
if(count($matches)<1){
$tempTitle = $temp;
break;
}else{
$result = $tempTitle;
}
}else{ // 正常情况下, 不会出现该情况.
break;
}
$leftIndex--;
}
// match(current[i-1].[|-].tempTitle), 如果成功, tempTitle = match 成功的值,继续.
// while 左边失败后, 从右边开始.
$rightIndex = $maxItemIndex+1;
while(true && ($rightIndex<=$count)){
preg_match("/({$tempTitle}{$this->matches_preg}+)/i", $title, $matches);
if(count($matches)>1){
// temp 用于匹配失败后,进行回滚.
$temp = $matches[1] . $titles[$rightIndex];
$tempTitle = $matches[1] . $titles[$rightIndex];
// 继续拿着 tempTitle 去匹配.
preg_match("/$tempTitle/i", $contents, $matches);
// 如果查找失败....
if(count($matches)<1){
$tempTitle = $temp;
break;
}else{
$result = $tempTitle;
}
}else{ // 正常情况下, 不会出现该情况.
break;
}
$rightIndex++;
}
return $result;
}/*}}}*/
function trimTitle($title, $contents){/*{{{*/
$contents = $this->trimMeta($contents);
// 配置切割标题的规则.
$titles = preg_split("/$this->matches_preg/i", $title);
$count = count($titles);
//var_dump($titles);exit;
// 将当前最长的 item 从全文查找.
$maxItemIndex = $this->getMaxIndex($titles);
$tempTitle = $titles[$maxItemIndex];
preg_match("/$tempTitle/i", $contents, $matches);
// 如果查找失败....
if(count($matches)<1){
return $title;
}
return $this->trim($title, $titles, $contents, $maxItemIndex);
}/*}}}*/
}
// ------------- test code ------------------------------
function convertEncoding($contents){
preg_match("/charset=([\w|\-]+);?/i", $contents, $match);
$charset = isset($match[1])? $match[1] : 'UTF-8';
$contents = mb_convert_encoding($contents, 'UTF-8', $charset);
return $contents;
}
$url = 'http://china.nba.com/news/4/2011/0617/61383331/10451.html';
$contents = file_get_contents($url);
$contents = convertEncoding($contents);
$startTime = microtime();
$purify = new TitlePurify();
$title = $purify->getTitle($contents);
$endTime = microtime();
echo "标题: $title ";
echo "cost: " . ($endTime-$startTime);
?>
分享到:
相关推荐
介绍一种基于TF-IDF的新闻网页关键词自动抽取方法。
网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具
摘要:随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题因此,
Python那些事——如何用Python抽取中文关键词。jieba使用
主要为大家详细介绍了Java精确抽取网页发布时间的相关资料,尽量做到精确无误,感兴趣的小伙伴们可以参考一下
java实现新闻网页内容抽取,具体算法参考“基于统计的新闻网页内容抽取”
运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘...能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。
使用winhttp组件抽取网页信息,里面还有手动获取网页信息,并且显示在form表单里
查找并抽取网页中的FLASH文件,需要在FLASH下载完毕后,再搜取,支持SWF文件格式
本方法中用到了网页分析器htmlparser,采用Java语言编程,工具是eclipse。可以实现把正文放在table结点的HTML网页的正文信息抽取功能。
基于特征句抽取的网页去重研究
java实现的网页爬虫1.5版本聚焦爬虫抽取网页
HTMLParser抽取Web网页正文信息.doc
htmlparser进行网页信息的抽取,里边有实例
基于PHP的网页信息抽取研究.pdf
英文原版的信息抽取资料,对于网页信息抽取方面的研究和开的人员有软大作用,对于学习计算机英语阅读的人员也有很大帮助
java实现的网页爬虫1.5版本聚焦爬虫抽取网页html 1,对制定网页进行抽取; 2,获取指定网页中的所有URL地址; 3,把URL地址分类保存到数据库中;
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重 算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均...
可以随意定义范围,点击开始即开始随机滚动,当点击停止时,随机显示一个数字,并在下一次抽取过程中不重复出现