`
thunderbow
  • 浏览: 154125 次
  • 性别: Icon_minigender_1
  • 来自: beijing
社区版块
存档分类
最新评论

Java实现抽取网页信息

阅读更多

使用正则表达式及字符串操作,抽取网页信息,实现代码如下:

/* 去script */
public static String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除注释*/
public static String trimComment(String content) {
String regEx = "<!--[^-]*-->";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}

/* 去除标签 */
public static String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");
return result;
}

/* 根据起始位置和结束位置,截取字符串 */
public static String subString(String start, String end, String content) {
int iStart = content.indexOf(start);
int iEnd = content.indexOf(end);
if (iStart < iEnd) {
return content.substring(iStart, iEnd);
}
return null;
}

分享到:
评论

相关推荐

    网页信息抽取工具 java网页信息抽取工具 java

    网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页

    java实现的网页爬虫1.6版本聚焦爬虫抽取网页完整版

    java实现的网页爬虫1.6版本聚焦爬虫抽取网页完整版 1,几个版本合集; 2,基本上可以完成抽取指定站点的源代码的功能; 3,网址保存到数据库中; 4,源代码写入java文件,保存到硬盘指定目录;

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页html

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页html 1,对制定网页进行抽取; 2,获取指定网页中的所有URL地址; 3,把URL地址分类保存到数据库中;

    新闻网页内容抽取java版

    java实现新闻网页内容抽取,具体算法参考“基于统计的新闻网页内容抽取”

    基于统计的网页正文信息抽取

    本方法中用到了网页分析器htmlparser,采用Java语言编程,工具是eclipse。可以实现把正文放在table结点的HTML网页的正文信息抽取功能。

    基于Java实现的基于模板的网页结构化信息精准抽取组件。.zip

    基于Java实现的基于模板的网页结构化信息精准抽取组件。.zip

    自动抽取网页正文的算法,用JAVA实现.zip

    到处运行(Write Once, Run Anywhere)”,这意味着开发者可以使用Java编写应用程序,并在支持Java的任何平台上无需重新编译即可运行,这得益于其独特的跨平台性,通过Java虚拟机(JVM)实现不同操作系统上的兼容。...

    网页信息提取java代码

    浙江大学楼学庆的第一个作业,用java提取网页信息。

    使用JSoup实现新闻网页正文抽取

    本程序用用解析工具JSoup,编程实现了新闻网页正文信息抽取,适用于新浪163qq等新闻网页信息抽取。开发工具为Eclipse,将工程导入到Eclipse后,直接运行NewsDown.java类。

    JAVA上百实例源码以及开源项目源代码

     Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。  部分源代码摘录:  ftpClient = new FtpClient(); //实例化FtpClient对象  String serverAddr=jtfServer.getText(); //得到服务器地址  ...

    java开源包4

    jSIP这个Java包目标是用Java实现SIP(SIP:Session Initiation Protocol)协议及SIP协议的其它扩展部 分。 Java表达式语法解析库 parboiled parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG...

    java源码包---java 源码 大量 实例

     Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。  部分源代码摘录:  ftpClient = new FtpClient(); //实例化FtpClient对象  String serverAddr=jtfServer.getText(); //得到服务器地址  ...

    java源码包4

     Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。  部分源代码摘录:  ftpClient = new FtpClient(); //实例化FtpClient对象  String serverAddr=jtfServer.getText(); //得到服务器...

    java开源包3

    jSIP这个Java包目标是用Java实现SIP(SIP:Session Initiation Protocol)协议及SIP协议的其它扩展部 分。 Java表达式语法解析库 parboiled parboiled 是一个纯Java库提供了一种轻量级,易于使用,功能强大和优雅的PEG...

    java源码包3

     Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。  部分源代码摘录:  ftpClient = new FtpClient(); //实例化FtpClient对象  String serverAddr=jtfServer.getText(); //得到服务器...

    JAVA上百实例源码以及开源项目

    百度云盘分享 ... Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。  部分源代码摘录:  ftpClient = new FtpClient(); //实例化FtpClient对象  String serverAddr=jtfServer.getText();...

    HtmlExtractor-master_HtmlExtractor_never11l_java_爬虫_基于模板_

    HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。HtmlExtractor是为大规模分布式环境设计的,采用主从...

Global site tag (gtag.js) - Google Analytics