`
lzj0470
  • 浏览: 1244479 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

去除注释 去script

    博客分类:
  • js
阅读更多
使用正则表达式及字符串操作,抽取网页信息,实现代码如下:  /* 去script */  public static String trimScript(String content) {  String regEx = "<script[^>]*>[^<]+</script>";  Pattern ...
       使用正则表达式及字符串操作,抽取网页信息,实现代码如下:
  /* 去script */
  public static String trimScript(String content) {
  String regEx = "<script[^>]*>[^<]+</script>";
  Pattern p = Pattern.compile(regEx);
  Matcher m = p.matcher(content);
  String result = content;
  if (m.find()) {
  result = m.replaceAll("");
  }
  return result;
  }
  /* 去除注释*/
  public static String trimComment(String content) {
  String regEx = "<!--[^-]*-->";
  Pattern p = Pattern.compile(regEx);
  Matcher m = p.matcher(content);
  String result = content;
  if (m.find()) {
  result = m.replaceAll("");
  }
  return result;
  }
  /* 去除标签 */
  public static String trimTag(String content) {
  String regEx = "<[^>]+>";
  Pattern p = Pattern.compile(regEx);
  Matcher m = p.matcher(content);
  String result = content;
  if (m.find()) {
  result = m.replaceAll("");
  }
  result = result.replace(" ", "").replace(">", "").replace(
  ">", "");
  return result;
  }
  /* 根据起始位置和结束位置,考试.大提示截取字符串 */
  public static String subString(String start, String end, String content) {
  int iStart = content.indexOf(start);
  int iEnd = content.indexOf(end);
  if (iStart < iEnd) {
  return content.substring(iStart, iEnd);
  }
  return null;
  }
<!---->
分享到:
评论
1 楼 kettas 2010-08-07  
顶,不错,我cao  太有用了。楼主,标记一下收藏

相关推荐

    javascript去掉代码里面的注释

    代码很简单,主要是使用正则来实现,直接奉上代码 ... // 去除注释后的文本 return /^\/{2,}/.test(word) || /^\/\*/.test(word) ? : word; }); 以上所述就是本文的全部内容了,希望大家能够喜欢。

    strip-comment:去除 js、css 或 html 注释

    去除 js、css 和 html 注释。 安装 npm install strip-comment --save 测试 mocha 演示 &lt; style &gt; p { color : red; /* Css line comment */ text-align : center; } /* * Css block comment */ &lt;...

    C# 过滤HTML标签的几种方法

    /// 已经去除后的文字 public static string NoHTML(string Htmlstring) { //删除脚本 Htmlstring = Regex.Replace(Htmlstring, @"&lt;script[^&gt;]*?&gt;.*?&lt;/script&gt;", "", RegexOptions.IgnoreCase); //删除HTML

    javascript匹配js中注释的正则表达式代码

    有时候我们需要将js的注释去掉,减少代码中的冗余,有时候注释太多导致页面体积大。 注释图示如下: 一.匹配多行注释正则表达式: /(?:^|\n|\r)\s*\/\*[\s\S]*?\*\/\s*(?:\r|\n|$)/g 二.单行注释正则表达式: /(?:^|...

    c# 正则表达式对网页进行有效内容抽取

    将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @”&lt;!–[^-]*–&gt;”, string.Empty, RegexOptions.IgnoreCase); 2.去script,正则为: ouput...

    vb Script参考文档

    Rem 语句 包含程序中的注释。 Replace 函数 返回一个字符串,其中某个指定的子串被另一个子串替换,替换的次数也有规定。 Replace 方法 替换在正则表达式搜索中已发现的正文。 RGB 函数 返回表示 RGB 颜色值的数...

    CnPlugin_1.5.4

    CnPlugin / Comment /&Uncommnet Lines 去除当前选中以“--”注释的代码 CnPlugin / &ReConnect 重连中断的数据库连接 CnPlugin / &ExPaste 对当前选中或剪贴板内空格式化为IN 字符串,如格式化字符串AA,BB,CC为...

    km6-macros:键盘大师 6 宏的集合,让我的生活变得有价值

    AppleScript 编辑器块注释/取消注释:在 AppleScript 编辑器中添加/删除选定文本的块注释。剪贴板Kindle Clipboard Cleaner:去除附加到您在 Kindle.app 中选择和复制的所有文本的烦人“注释”。 我建议将此映射到⌘...

    matlab代码sqrt-cnn_matlab:CNNMNIST从头开始分类

    要加载训练后的模型,请注释掉init,手动加载.mat文件,然后运行RUN_script.m。 如果您只想测试,评论训练,取消评论测试并运行 #### preproc_data.m 加载MNIST.mat和处理数据的脚本 数据扩充和均值去除(从测试数据...

    maven自动部署到远程tomcat服务器的方法

    编辑远程tomcat服务器下的conf/tomcat-users.xml,在末尾增加(其实只要拉到文件末尾,去掉注释改一下就可以了) &lt;role rolename=manager-script/&gt; &lt;user username=admin password=password roles=m

    parcel-plugin-html-externals:ParcelJS插件将忽略标记为外部文件的html文件中的某些脚本和样式表链接标签

    将来,Parcel可能会开箱即用地支持外部组件,参见。... script src =" vendor/thirdparty.min.js " &gt; &lt;/ script &gt; 外部密钥可以是字符串,也可以是接受的任何glob,该值必须为false才能触发忽略。

    经典Dreamweaver插件

    tooltips 为页面或链接增加一个dHTML的脚注(即注释) insert_greeting 根据不同的时段插入不同的问候语 script_editor 让你更方便的编辑脚本,包括外部脚本 popup_menu_builder 帮助您轻松创建一个跨...

    Dreamweaver 扩展

    script_editor 让你更方便的编辑脚本,包括外部脚本 popup_menu_builder 帮助您轻松创建一个跨浏览器的弹出菜单 TableLines 文章文字各行间都有横线分离 alternate_table_rows 使表格中行与行之间的背景色交替变换 ...

    基于行块分布函数的通用网页正文抽取算法优化,Python实现+源代码+文档说明

    采用正则过滤掉ul、script、style、注释等内容,标记该内容为A,然后过滤所有标签,再标记该内容为B。然后定义k行为一个行块,去掉空格的长度为行块长度。将过滤掉标签的内容B进行行块长度统计,根据行块分布找出最...

    AIX基本环境搭建.doc

    前面的#号去掉(默认已去掉注释) 还有找到DirectoryIndex index.html 加上 index.php index.htm AIX5.3安装PHP ./configure --prefix=/usr/local/...

    70款经典Dreamweaver插件

    script_editor 让你更方便的编辑脚本,包括外部脚本 popup_menu_builder 帮助您轻松创建一个跨浏览器的弹出菜单 TableLines 文章文字各行间都有横线分离 alternate_table_rows 使表格中行与行之间的背景色交替变换 ...

    Dreamweaver 插件集

    script_editor 让你更方便的编辑脚本,包括外部脚本 popup_menu_builder 帮助您轻松创建一个跨浏览器的弹出菜单 TableLines 文章文字各行间都有横线分离 alternate_table_rows 使表格中行与行之间的背景色交替变换 ...

    文章管理系统

    1.[修复]由于上传图片管理中的占用数不准确,故去除 2.[改进]前台编辑器字体和背景色盘由原来的十几色改成全色系 3.[改进]完善过滤script标签的JS函数 4.[改进]后台密码设置由原来限制最长20位扩展到50位 5.[纠正]...

    EditPlus 2整理信箱的工具

    编辑-格式-删除行注释 c. 在弹出对话框里面输入要清除的行首字符,确定 【4】正则表达式应用——替换带有半角括号的多行 几百个网页中都有下面一段代码: &lt;script LANGUAGE="JavaScript1.1"&gt; &lt;!-- htmlAdWH('...

    Editplus 3[1].0

    编辑-格式-删除行注释 c. 在弹出对话框里面输入要清除的行首字符,确定 【4】正则表达式应用——替换带有半角括号的多行 几百个网页中都有下面一段代码: &lt;script LANGUAGE="JavaScript1.1"&gt; &lt;!-- htmlAdWH('...

Global site tag (gtag.js) - Google Analytics