`
web001
  • 浏览: 96470 次
  • 性别: Icon_minigender_1
  • 来自: 天津
社区版块
存档分类
最新评论

使用正则表达式过滤url链接

    博客分类:
  • Java
阅读更多

 

先把代码贴出来吧:

String cc = "专业网站建设 欢迎来到http://www.hualai.net.cn";

Pattern pattern = Pattern.compile("[http]{4}\\:\\/\\/[a-z]*(\\.[a-zA-Z]*)*(\\/([a-zA-Z]|[0-9])*)*\\s?");

Matcher matcher = pattern.matcher(cc);

cc = matcher.replaceAll("");

这段代码不难,主要是表示url的这条正则表达式语句怎么理解的问题了,下面就来分解一下:

 

[http]{4}\\:\\/\\/([a-zA-Z]|[0-9])*(\\.([a-zA-Z]|[0-9])*)*(\\/([a-zA-Z]|[0-9])*)*\\s?

[http]{4}这个大家都懂吧,就是匹配http;

 

\\:这一部分匹配的是“:”号,这里大家要注意了,在网上找到的大多数的正则表达式都回用到\这个转义符,但是在上述的这段代码里面必须要多添加一个\号即:\\:,这样才能匹配成功。

 

\\/\\/这个自然是匹配//

 

([a-zA-Z]|[0-9])*(\\.([a-zA-Z]|[0-9])*)*这段匹配的是主机名(好像是这么叫的,抱歉,太久了都忘了,就是http://www.baidu.com其中的www.baidu.com)在所举的例子里可以看到这一串是由两个.隔开三个字符串构成的,因此要这么匹配:([a-zA-Z]|[0-9])*来匹配www,(\\.([a-zA-Z]|[0-9])*)*这个来匹配.baidu.com,这是个多次匹配

 

(\\/([a-zA-Z]|[0-9])*)* 这个匹配的是这种情况:(http://www.hualai.net.cn/webcase/)它匹配的就是/webcase的情况,当然如果后面还有类似字符的话,再来个多次匹配就ok了

 

最后说下\\s?这匹配的是url后面的空格,后面加了个?的意思是说可有可无。

 

当然我这方法说不上好,只是说出来跟大家分享一下,大家要是有更好的方法,还请不吝赐教哦。

分享到:
评论

相关推荐

    link-snag:从给定url中的标签返回链接的数组,可以通过正则表达式过滤

    ===============返回给定URL中标记的链接数组,可以通过正则表达式过滤 版本0.1.1 用法 var snagger = require ( 'html-link-snag' ) ; snagger . links ( 'http://www.google.com' , '^(?:[a-z]+:)?//' ) . then ...

    php使用正则表达式获取字符串中的URL

    今天写一个问答系统上线之后发现有很多人发链接了,由于业务部门要我们过滤掉网站地址了,下面我给大家分享一个提取字符串url地址函数,代码如下: $str ='本文实例讲述了php匹配字符串里所有URL地址的方法。...

    网页链接检查LinkChecker.zip

    可使用正则表达式对链接的url进行过滤 支持代理服务器 支持用户名和密码验证 遵守 robots.txt 法则 支持 Cookie 支持 HTML 和 CSS 语法检查 反病毒检查 提供命令行和图形界面和Web三种用户接口 ...

    LinkChecker 链接检查工具 v8.4.zip

    可使用正则表达式对链接的url进行过滤 支持代理服务器 支持用户名和密码验证 遵守 robots.txt 法则 支持 Cookie 支持 HTML 和 CSS 语法检查 反病毒检查 提供命令行和图形界面和Web三种用户接口

    Python爬虫抓取指定网页图片代码实例

    (1)方法一:使用正则表达式过滤抓到的 html 内容字符串 # 第一个简单的爬取图片的程序 import urllib.request # python自带的爬操作url的库 import re # 正则表达式 # 该方法传入url,返回url的html的

    g-web-downloader:从链接下载网站

    除了正则表达式过滤器,元过滤器({image}, {javascript}, {css}) 现在已经实现。 它呈现图像资源,包括 jpeg、gif 和 png 资源。 用法 更改 main() 函数以适应您自己的要求,例如从 lua.org 下载 Lua 引用,使用 ...

    LinkChecker 链接检查工具 v8.4

    主要特性:循环遍历和多线程检查输出各种格式检查结果:text, HTML, SQL, CSV, XML支持 HTTP/1.1, HTTPS, FTP, mailto, nntp:, Telnet 和本地文件链接检查可使用正则表达式对链接的url进行过滤支持代理服务器支持...

    IIS服务器SSI(rewrite重写)插件的帮助资料

    ISAPI_Rewrite 是一款适用于IIS的功能强大的基于正则表达式的URL处理模块。它兼容Apache的mod_rewrite的语法,从而使仅仅复制.htaccess文件就把配置从appach移植到IIS中或者从IIS移值到appach中变成可能。请参阅3.2...

    LinkRedirector-crx插件

    链接地址(URL):如果链接的地址与此正则表达式匹配,则将应用该规则。 ;图像地址(img):如果该值存在,则该规则将仅适用于链接在其文本节点中具有的图像与此正则表达式匹配的情况。 ;文本内容(xml):如果此值...

    java解析给定url

    * 正则表达式匹配关键数据 * @param line * @return */ private Set<String> parse(String line) { Set resSet = new LinkedHashSet(); Pattern pattern = Pattern.compile(reg); Matcher matcher = pattern...

    urlrewritefilter-4.0.3.jar

    软件简介 这是urlrewritefilter-...rule结点中from的规则默认使用的是正则表达式来匹配的,当用户访问服务器时的URL会与该配置相比较,如果符合规则就会按照下面to结点中的配置对其进行跳转,其默认是forward跳转。

    基于网络爬虫及用户的协同过滤推荐算法的电影推荐系统.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    就业推荐系统 spark ml 推荐系统 协同过滤 招聘平台 爬虫 毕业设计 大数据技术 招聘信息爬虫 智联招聘.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    基于Python3的12306抢票爬虫,10个线程开抢,智能过滤凌晨12:00到7:00发车的车次。.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫,结果存入mysql。.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    flex3的cookbook书籍完整版dpf(包含目录)

    使用正则表达式创建国际化邮政编码Validator 15.4节. 如何创建一个Validator去验证通用商品代码(UPC) 15.5节. 如何去验证多个Combo Box及Radio Button组件 15.6节. 如何在一个表单内通过ToolTips来返映一个错误 ...

    web项目爬虫过滤器.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

Global site tag (gtag.js) - Google Analytics