使用正则表达式过滤url链接 - web网站建设 - ITeye博客

`

web001

浏览: 96470 次
性别:
来自: 天津

最近访客更多访客>>

songdawei001

xieye

zhangle

yczoutao

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

runfriends： kidneyball 写道runfriends 写道楼主你用的 ...
「译」在java中，字符串的加法是如何实现的？
kidneyball： runfriends 写道楼主你用的是谁家的编译器啊？我用jd ...
「译」在java中，字符串的加法是如何实现的？
runfriends： so the original article is inco ...
「译」在java中，字符串的加法是如何实现的？
runfriends：所以前面我说的那一些对jdk7也适用
「译」在java中，字符串的加法是如何实现的？
runfriends：楼主你用的是谁家的编译器啊？我用jdk6、jdk7、eclip ...
「译」在java中，字符串的加法是如何实现的？

使用正则表达式过滤url链接

博客分类：

Java

正则表达式正则 url

阅读更多

先把代码贴出来吧：

String cc = "专业网站建设欢迎来到http://www.hualai.net.cn";

Pattern pattern = Pattern.compile("[http]{4}\\:\\/\\/[a-z]*(\\.[a-zA-Z]*)*(\\/([a-zA-Z]|[0-9])*)*\\s?");

Matcher matcher = pattern.matcher(cc);

cc = matcher.replaceAll("");

这段代码不难，主要是表示url的这条正则表达式语句怎么理解的问题了，下面就来分解一下：

[http]{4}\\:\\/\\/([a-zA-Z]|[0-9])*(\\.([a-zA-Z]|[0-9])*)*(\\/([a-zA-Z]|[0-9])*)*\\s?

[http]{4}这个大家都懂吧，就是匹配http；

\\:这一部分匹配的是“：”号，这里大家要注意了，在网上找到的大多数的正则表达式都回用到\这个转义符，但是在上述的这段代码里面必须要多添加一个\号即：\\:，这样才能匹配成功。

\\/\\/这个自然是匹配//

([a-zA-Z]|[0-9])*(\\.([a-zA-Z]|[0-9])*)*这段匹配的是主机名（好像是这么叫的，抱歉，太久了都忘了，就是http://www.baidu.com其中的www.baidu.com）在所举的例子里可以看到这一串是由两个.隔开三个字符串构成的，因此要这么匹配：([a-zA-Z]|[0-9])*来匹配www，(\\.([a-zA-Z]|[0-9])*)*这个来匹配.baidu.com，这是个多次匹配

(\\/([a-zA-Z]|[0-9])*)* 这个匹配的是这种情况：（http://www.hualai.net.cn/webcase/）它匹配的就是/webcase的情况，当然如果后面还有类似字符的话，再来个多次匹配就ok了

最后说下\\s?这匹配的是url后面的空格，后面加了个?的意思是说可有可无。

当然我这方法说不上好，只是说出来跟大家分享一下，大家要是有更好的方法，还请不吝赐教哦。

分享到：

网站服务器tomcat禁止ip直接访问 | Hibernate4开发网站最佳实践

2012-08-10 10:02
浏览 3090
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

link-snag:从给定url中的标签返回链接的数组，可以通过正则表达式过滤: ===============返回给定URL中标记的链接数组，可以通过正则表达式过滤版本0.1.1 用法 var snagger = require ( 'html-link-snag' ) ; snagger . links ( 'http://www.google.com' , '^(?:[a-z]+:)?//' ) . then ...

php使用正则表达式获取字符串中的URL: 今天写一个问答系统上线之后发现有很多人发链接了,由于业务部门要我们过滤掉网站地址了,下面我给大家分享一个提取字符串url地址函数,代码如下: $str ='本文实例讲述了php匹配字符串里所有URL地址的方法。...

网页链接检查LinkChecker.zip: 可使用正则表达式对链接的url进行过滤支持代理服务器支持用户名和密码验证遵守 robots.txt 法则支持 Cookie 支持 HTML 和 CSS 语法检查反病毒检查提供命令行和图形界面和Web三种用户接口 ...

LinkChecker 链接检查工具 v8.4.zip: 可使用正则表达式对链接的url进行过滤支持代理服务器支持用户名和密码验证遵守 robots.txt 法则支持 Cookie 支持 HTML 和 CSS 语法检查反病毒检查提供命令行和图形界面和Web三种用户接口

Python爬虫抓取指定网页图片代码实例: （1）方法一：使用正则表达式过滤抓到的 html 内容字符串 # 第一个简单的爬取图片的程序 import urllib.request # python自带的爬操作url的库 import re # 正则表达式 # 该方法传入url,返回url的html的

g-web-downloader:从链接下载网站: 除了正则表达式过滤器，元过滤器({image}, {javascript}, {css}) 现在已经实现。它呈现图像资源，包括 jpeg、gif 和 png 资源。用法更改 main() 函数以适应您自己的要求，例如从 lua.org 下载 Lua 引用，使用 ...

LinkChecker 链接检查工具 v8.4: 主要特性：循环遍历和多线程检查输出各种格式检查结果：text, HTML, SQL, CSV, XML支持 HTTP/1.1, HTTPS, FTP, mailto, nntp:, Telnet 和本地文件链接检查可使用正则表达式对链接的url进行过滤支持代理服务器支持...

IIS服务器SSI(rewrite重写)插件的帮助资料: ISAPI_Rewrite 是一款适用于IIS的功能强大的基于正则表达式的URL处理模块。它兼容Apache的mod_rewrite的语法，从而使仅仅复制.htaccess文件就把配置从appach移植到IIS中或者从IIS移值到appach中变成可能。请参阅3.2...

LinkRedirector-crx插件: 链接地址（URL）：如果链接的地址与此正则表达式匹配，则将应用该规则。 ;图像地址（img）：如果该值存在，则该规则将仅适用于链接在其文本节点中具有的图像与此正则表达式匹配的情况。 ;文本内容（xml）：如果此值...

java解析给定url: * 正则表达式匹配关键数据 * @param line * @return */ private Set<String> parse(String line) { Set resSet = new LinkedHashSet(); Pattern pattern = Pattern.compile(reg); Matcher matcher = pattern...

urlrewritefilter-4.0.3.jar: 软件简介这是urlrewritefilter-...rule结点中from的规则默认使用的是正则表达式来匹配的，当用户访问服务器时的URL会与该配置相比较，如果符合规则就会按照下面to结点中的配置对其进行跳转，其默认是forward跳转。

基于网络爬虫及用户的协同过滤推荐算法的电影推荐系统.zip: 常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用...

就业推荐系统 spark ml 推荐系统协同过滤招聘平台爬虫毕业设计大数据技术招聘信息爬虫智联招聘.zip: 常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用...

基于Python3的12306抢票爬虫，10个线程开抢，智能过滤凌晨12：00到7：00发车的车次。.zip: 常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用...

基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫，结果存入mysql。.zip: 常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用...

flex3的cookbook书籍完整版dpf（包含目录）: 使用正则表达式创建国际化邮政编码Validator 15.4节. 如何创建一个Validator去验证通用商品代码(UPC) 15.5节. 如何去验证多个Combo Box及Radio Button组件 15.6节. 如何在一个表单内通过ToolTips来返映一个错误 ...

web项目爬虫过滤器.zip: 常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用...

Global site tag (gtag.js) - Google Analytics