用htmlparser分析并抽取正文

gstarwd

浏览: 1489088 次
性别:
来自: 杭州

最近访客更多访客>>

cl_andywin

sagadan

scj2cy

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HtmlAnalysis

JavaScript 资讯笑话

我这次要介绍的是如何抽取正文，这部分是最为核心的．因为如果不能很好的提取原有文章的内容和样式，那么搜索出来的东西
就会惨不忍睹．根本就没有使用价值

　　在做正文抽取模块之前我曾经参考过很多抽取模式，有配置模版的，有搞视觉匹配的．有搞关键字识别的．我挨个做了分析
首先配置摸版是不太现实的，因为我在搜索技术资讯的时候，根本不知道会搜索到哪个网站，也根本没精力去配置摸版．所以这个行不通
　　
　　基于视觉效果的分析，这个难度比较大，而且只适合于规范的网站，而现在很多网站根本不规范，广告链接漫天飞．人家都把最好的
位置留给广告了．而且我一直怀疑这个模式的可行性，它只是一个善意的推测．所以这方面没做过多尝试

　　我在想，是否有种简单的方法呢？难道就没有什么共性吗？

　　我想所有的正文应该有个共同的特点，那就是正文的长度应该超过其他文字组合的长度．很少会有一句话的正文，很少会有长度
短于标题的正文．所以这个应该成为一个突破口．

　　接下来，有一个很重要的问题，那段最长的正文在哪里呢？
　　肯定是在一个TABLE，或者DIV，或者ParagraphTag里．那好，那就找到那个包含文字最多的DIV或者TABLE．

　　不过问题又来了，HTML页面，经常是HTML元素的长度超过了正文的长度，有时候混入了不少的JAVASCRIPT．这些元素
HTMLPARSER经常会误认为是正文加以识别，导致很多正文竟然是一段JAVASCRIPT．
　　祛除杂质是一个关键，这里面要把那些ＨＴＭＬ中常用的标签，以及连接中正文去除掉，否则，你搜索出来的很可能是别的什么，尤其
当正文文字相对较少的时候．我在搜索SOHU页面的时候就经常遇到这个问题，原因是SOHU的页面不是严格按照DIV布局，里面有很多广告
的JAVASCRIPT。新浪的有些页面也有这个现象，反到是一些中小网站的布局很规范，呵呵，真奇怪了。

　　做完这些工作后，我发现仍然有些网页不能正常抓取，原因是HTMLPARSER对TEXT的认识有问题．例如一段文字在
ParagraphTag中或者span中包含的，就不能很好的识别．所以要单独做个抽取ParagraphTag内容的函数．

　　做完这些步骤后，有一个问题出来了就是正文中包含的图片，连接，粗体，正常的表格．这些问题一个个的冒出来．既然问题出来了
那就要一个个的解决．解决了这些难题．我的网站抓取文章的质量就大大的提高了85%的准确率，基本达到实用阶段．我网站上的正文快照基本和原文保持一致．

　　　　提供几个例子，大家可以看下原文和我抓取的有多少不同
　　　　1. http://www.itsubway.com/context/20071218/11762.htm
 这个是单纯获取正文的例子，其中有粗体标签和链接

　　　　2 http://www.itsubway.com/context/20071218/12041.htm
　　　　　这个是正文里混有图片和表格．

　　我把抽取正文的部分代码和大家共享．这些代码基本解决了我在上面列举出来的问题。包括正文中混有图片,连接,粗体,表格等。
 大家要是有兴趣可以改造下这些代码请大家重点看protected List extractHtml(Node nodeP, PageContext context, String siteUrl)
 这个函数是正文抽取的入口。我的这些函数写的不是很规范，别笑话！




/**
 * 收集HTML页面信息调用抓取函数按照自己的摸版生成网页
 * @param url
 * @param urlEncode
 */
 public void makeContext(ChannelLinkDO c) {
 String metakeywords = "<META content={0} name=keywords>";
 String metatitle = "<TITLE>{0}</TITLE>";
 String metadesc = "<META content={0} name=description>";
 String netshap = " 正文快照: 时间{0} ";

 String tempLeate = "<LI class=active><A href=\"{0}\" target=_blank>{1}</A></LI>";
 String crop = "<A href=\"{0}\" target=_blank>{1}</A> ";

 try {
 String siteUrl = getLinkUrl(c.getLink());
 Parser parser = new Parser(c.getLink());
 parser.setEncoding(c.getEncode());

 for (NodeIterator e = parser.elements(); e.hasMoreNodes();) {
 Node node = (Node) e.nextNode();

 if (node instanceof Html) {
 PageContext context = new PageContext();
 context.setNumber(0);
 context.setTextBuffer(new StringBuffer());
 //抓取出内容
 extractHtml(node, context, siteUrl);

 StringBuffer testContext = context.getTextBuffer();
 //.....生成网页
 }
 }
 } catch (Exception e) {
 System.out.println(e);
 }
 }

 private String getLinkUrl(String link) {
 String urlDomaiPattern = "(http://[^/]*? " + "/)(.*?)";

 Pattern pattern = Pattern.compile(urlDomaiPattern,
 Pattern.CASE_INSENSITIVE + Pattern.DOTALL);
 Matcher matcher = pattern.matcher(link);
 String url = "";

 while (matcher.find()) {
 int start = matcher.start(1);
 int end = matcher.end(1);

 url = link.substring(start, end - 1).trim();
 }

 return url;
 }

 /**
 * 递归钻取正文信息
 * @param nodeP
 * @return
 */
 protected List extractHtml(Node nodeP, PageContext context, String siteUrl)
 throws Exception {
 NodeList nodeList = nodeP.getChildren();
 boolean bl = false;

 if ((nodeList == null) || (nodeList.size() == 0)) {
 if (nodeP instanceof ParagraphTag) {
 ArrayList tableList = new ArrayList();
 StringBuffer temp = new StringBuffer();
 temp.append("");
 tableList.add(temp);
 temp = new StringBuffer();
 temp.append("").append(lineSign);
 tableList.add(temp);

 return tableList;
 }

 return null;
 }

 if ((nodeP instanceof TableTag) || (nodeP instanceof Div)) {
 bl = true;
 }

 if (nodeP instanceof ParagraphTag) {
 ArrayList tableList = new ArrayList();
 StringBuffer temp = new StringBuffer();
 temp.append("");
 tableList.add(temp);
 extractParagraph(nodeP, siteUrl, tableList);

 temp = new StringBuffer();
 temp.append("").append(lineSign);

 tableList.add(temp);

 return tableList;
 }

 ArrayList tableList = new ArrayList();

 try {
 for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) {
 Node node = (Node) e.nextNode();

 if (node instanceof LinkTag) {
 tableList.add(node);
 setLinkImg(node, siteUrl);
 } else if (node instanceof ImageTag) {
 ImageTag img = (ImageTag) node;

 if (img.getImageURL().toLowerCase().indexOf("http://") < 0) {
 img.setImageURL(siteUrl + img.getImageURL());
 } else {
 img.setImageURL(img.getImageURL());
 }

 tableList.add(node);
 } else if (node instanceof ScriptTag ||
 node instanceof StyleTag || node instanceof SelectTag) {
 } else if (node instanceof TextNode) {
 if (node.getText().length() > 0) {
 StringBuffer temp = new StringBuffer();
 String text = collapse(node.getText()
 .replaceAll(" ", "")
 .replaceAll("　", ""));

 temp.append(text.trim());

 tableList.add(temp);
 }
 } else {
 if (node instanceof TableTag || node instanceof Div) {
 TableValid tableValid = new TableValid();
 isValidTable(node, tableValid);

 if (tableValid.getTrnum() > 2) {
 tableList.add(node);

 continue;
 }
 }

 List tempList = extractHtml(node, context, siteUrl);

 if ((tempList != null) && (tempList.size() > 0)) {
 Iterator ti = tempList.iterator();

 while (ti.hasNext()) {
 tableList.add(ti.next());
 }
 }
 }
 }
 } catch (Exception e) {
 return null;
 }

 if ((tableList != null) && (tableList.size() > 0)) {
 if (bl) {
 StringBuffer temp = new StringBuffer();
 Iterator ti = tableList.iterator();
 int wordSize = 0;
 StringBuffer node;
 int status = 0;
 StringBuffer lineStart = new StringBuffer(
 "");
 StringBuffer lineEnd = new StringBuffer("" + lineSign);

 while (ti.hasNext()) {
 Object k = ti.next();

 if (k instanceof LinkTag) {
 if (status == 0) {
 temp.append(lineStart);
 status = 1;
 }

 node = new StringBuffer(((LinkTag) k).toHtml());
 temp.append(node);
 } else if (k instanceof ImageTag) {
 if (status == 0) {
 temp.append(lineStart);
 status = 1;
 }

 node = new StringBuffer(((ImageTag) k).toHtml());
 temp.append(node);
 } else if (k instanceof TableTag) {
 if (status == 0) {
 temp.append(lineStart);
 status = 1;
 }

 node = new StringBuffer(((TableTag) k).toHtml());
 temp.append(node);
 } else if (k instanceof Div) {
 if (status == 0) {
 temp.append(lineStart);
 status = 1;
 }

 node = new StringBuffer(((Div) k).toHtml());
 temp.append(node);
 } else {
 node = (StringBuffer) k;

 if (status == 0) {
 if (node.indexOf("<p") < 0) {
 temp.append(lineStart);
 temp.append(node);
 wordSize = wordSize + node.length();
 status = 1;
 } else {
 temp.append(node);
 status = 1;
 }
 } else if (status == 1) {
 if (node.indexOf("</p") < 0) {
 if (node.indexOf("<p") < 0) {
 temp.append(node);
 wordSize = wordSize + node.length();
 } else {
 temp.append(lineEnd);
 temp.append(node);
 status = 1;
 }
 } else {
 temp.append(node);
 status = 0;
 }
 }
 }
 }

 if (status == 1) {
 temp.append(lineEnd);
 }

 if (wordSize > context.getNumber()) {
 context.setNumber(wordSize);
 context.setTextBuffer(temp);
 }

 return null;
 } else {
 return tableList;
 }
 }

 return null;
 }

 /**
 * 设置图象连接
 * @param nodeP
 * @param siteUrl
 */
 private void setLinkImg(Node nodeP, String siteUrl) {
 NodeList nodeList = nodeP.getChildren();

 try {
 for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) {
 Node node = (Node) e.nextNode();

 if (node instanceof ImageTag) {
 ImageTag img = (ImageTag) node;

 if (img.getImageURL().toLowerCase().indexOf("http://") < 0) {
 img.setImageURL(siteUrl + img.getImageURL());
 } else {
 img.setImageURL(img.getImageURL());
 }
 }
 }
 } catch (Exception e) {
 return;
 }

 return;
 }

 /**
 * 钻取段落中的内容
 * @param nodeP
 * @param siteUrl
 * @param tableList
 * @return
 */
 private List extractParagraph(Node nodeP, String siteUrl, List tableList) {
 NodeList nodeList = nodeP.getChildren();

 if ((nodeList == null) || (nodeList.size() == 0)) {
 if (nodeP instanceof ParagraphTag) {
 StringBuffer temp = new StringBuffer();
 temp.append("");
 tableList.add(temp);
 temp = new StringBuffer();
 temp.append("").append(lineSign);
 tableList.add(temp);

 return tableList;
 }

 return null;
 }

 try {
 for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) {
 Node node = (Node) e.nextNode();

 if (node instanceof ScriptTag || node instanceof StyleTag ||
 node instanceof SelectTag) {
 } else if (node instanceof LinkTag) {
 tableList.add(node);
 setLinkImg(node, siteUrl);
 } else if (node instanceof ImageTag) {
 ImageTag img = (ImageTag) node;

 if (img.getImageURL().toLowerCase().indexOf("http://") < 0) {
 img.setImageURL(siteUrl + img.getImageURL());
 } else {
 img.setImageURL(img.getImageURL());
 }

 tableList.add(node);
 } else if (node instanceof TextNode) {
 if (node.getText().trim().length() > 0) {
 String text = collapse(node.getText()
 .replaceAll(" ", "")
 .replaceAll("　", ""));
 StringBuffer temp = new StringBuffer();
 temp.append(text);
 tableList.add(temp);
 }
 } else if (node instanceof Span) {
 StringBuffer spanWord = new StringBuffer();
 getSpanWord(node, spanWord);

 if ((spanWord != null) && (spanWord.length() > 0)) {
 String text = collapse(spanWord.toString()
 .replaceAll(" ", "")
 .replaceAll("　", ""));

 StringBuffer temp = new StringBuffer();
 temp.append(text);
 tableList.add(temp);
 }
 } else if (node instanceof TagNode) {
 String tag = node.toHtml();

 if (tag.length() <= 10) {
 tag = tag.toLowerCase();

 if ((tag.indexOf("strong") >= 0) ||
 (tag.indexOf("b") >= 0)) {
 StringBuffer temp = new StringBuffer();
 temp.append(tag);
 tableList.add(temp);
 }
 } else {
 if (node instanceof TableTag || node instanceof Div) {
 TableValid tableValid = new TableValid();
 isValidTable(node, tableValid);

 if (tableValid.getTrnum() > 2) {
 tableList.add(node);

 continue;
 }
 }

 extractParagraph(node, siteUrl, tableList);
 }
 }
 }
 } catch (Exception e) {
 return null;
 }

 return tableList;
 }

 protected void getSpanWord(Node nodeP, StringBuffer spanWord) {
 NodeList nodeList = nodeP.getChildren();

 try {
 for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) {
 Node node = (Node) e.nextNode();

 if (node instanceof ScriptTag || node instanceof StyleTag ||
 node instanceof SelectTag) {
 } else if (node instanceof TextNode) {
 spanWord.append(node.getText());
 } else if (node instanceof Span) {
 getSpanWord(node, spanWord);
 } else if (node instanceof ParagraphTag) {
 getSpanWord(node, spanWord);
 } else if (node instanceof TagNode) {
 String tag = node.toHtml().toLowerCase();

 if (tag.length() <= 10) {
 if ((tag.indexOf("strong") >= 0) ||
 (tag.indexOf("b") >= 0)) {
 spanWord.append(tag);
 }
 }
 }
 }
 } catch (Exception e) {
 }

 return;
 }

 /**
 * 判断TABLE是否是表单
 * @param nodeP
 * @return
 */
 private void isValidTable(Node nodeP, TableValid tableValid) {
 NodeList nodeList = nodeP.getChildren();

 /**如果该表单没有子节点则返回**/
 if ((nodeList == null) || (nodeList.size() == 0)) {
 return;
 }

 try {
 for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) {
 Node node = (Node) e.nextNode();

 /**如果子节点本身也是表单则返回**/
 if (node instanceof TableTag || node instanceof Div) {
 return;
 } else if (node instanceof ScriptTag ||
 node instanceof StyleTag || node instanceof SelectTag) {
 return;
 } else if (node instanceof TableColumn) {
 return;
 } else if (node instanceof TableRow) {
 TableColumnValid tcValid = new TableColumnValid();
 tcValid.setValid(true);
 findTD(node, tcValid);

 if (tcValid.isValid()) {
 if (tcValid.getTdNum() < 2) {
 if (tableValid.getTdnum() > 0) {
 return;
 } else {
 continue;
 }
 } else {
 if (tableValid.getTdnum() == 0) {
 tableValid.setTdnum(tcValid.getTdNum());
 tableValid.setTrnum(tableValid.getTrnum() + 1);
 } else {
 if (tableValid.getTdnum() == tcValid.getTdNum()) {
 tableValid.setTrnum(tableValid.getTrnum() +
 1);
 } else {
 return;
 }
 }
 }
 }
 } else {
 isValidTable(node, tableValid);
 }
 }
 } catch (Exception e) {
 return;
 }

 return;
 }

 /**
 * 判断是否有效TR
 * @param nodeP
 * @param TcValid
 * @return
 */
 private void findTD(Node nodeP, TableColumnValid tcValid) {
 NodeList nodeList = nodeP.getChildren();

 /**如果该表单没有子节点则返回**/
 if ((nodeList == null) || (nodeList.size() == 0)) {
 return;
 }

 try {
 for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) {
 Node node = (Node) e.nextNode();

 /**如果有嵌套表单**/
 if (node instanceof TableTag || node instanceof Div ||
 node instanceof TableRow ||
 node instanceof TableHeader) {
 tcValid.setValid(false);

 return;
 } else if (node instanceof ScriptTag ||
 node instanceof StyleTag || node instanceof SelectTag) {
 tcValid.setValid(false);

 return;
 } else if (node instanceof TableColumn) {
 tcValid.setTdNum(tcValid.getTdNum() + 1);
 } else {
 findTD(node, tcValid);
 }
 }
 } catch (Exception e) {
 tcValid.setValid(false);

 return;
 }

 return;
 }

 protected String collapse(String string) {
 int chars;
 int length;
 int state;
 char character;
 StringBuffer buffer = new StringBuffer();
 chars = string.length();

 if (0 != chars) {
 length = buffer.length();
 state = ((0 == length) || (buffer.charAt(length - 1) == ' ') ||
 ((lineSign_size <= length) &&
 buffer.substring(length - lineSign_size, length).equals(lineSign)))
 ? 0 : 1;

 for (int i = 0; i < chars; i++) {
 character = string.charAt(i);

 switch (character) {
 case '\u0020':
 case '\u0009':
 case '\u000C':
 case '\u200B':
 case '\u00a0':
 case '\r':
 case '\n':

 if (0 != state) {
 state = 1;
 }

 break;

 default:

 if (1 == state) {
 buffer.append(' ');
 }

 state = 2;
 buffer.append(character);
 }
 }
 }

 return buffer.toString();
 }

正文抽取.rar (5.9 KB)
下载次数: 31

分享到：

Cobra: Java HTML 解析器 | HtmlParser初步研究

2010-04-12 15:26
浏览 1536
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论