`
小网客
  • 浏览: 1216904 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Java基于url获取host的两种方法

 
阅读更多

需求:

基于url获取host,case如下:

http://snv.iteye.com/blog/1992991结果为snv.iteye.com

snv.iteye.com/blog/1992991结果为snv.iteye.com

https://snv.iteye.com/blog/1992991结果为snv.iteye.com

http://snv.iteye.html结果为“”

http://snv.iteye.htm结果为“”

snv.iteye.html结果为“”

teye.html结果为“”

http://www.iteye.com/blog/1992991结果为www.iteye.com

www.iteye.com/blog/1992991结果为www.iteye.com

https://www.iteye.com/blog/1992991结果为www.iteye.com

 

方法实现如下:

方法1:基于URI或者URL

依赖:

<dependency>
	<groupId>commons-lang</groupId>
	<artifactId>commons-lang</artifactId>
	<version>2.6</version>
</dependency>

代码:

private static String getHost(String url) {
	if (!(StringUtils.startsWithIgnoreCase(url, "http://") || StringUtils
			.startsWithIgnoreCase(url, "https://"))) {
		url = "http://" + url;
	}
	String returnVal = StringUtils.EMPTY;
	try {
		URI uri = new URI(url);
		returnVal = uri.getHost();
	} catch (Exception e) {
	}
	if ((StringUtils.endsWithIgnoreCase(returnVal, ".html") || StringUtils
			.endsWithIgnoreCase(returnVal, ".htm"))) {
		returnVal = StringUtils.EMPTY;
	}
	return returnVal;
}

 

方法2:基于正则

依赖:

<dependency>
	<groupId>commons-lang</groupId>
	<artifactId>commons-lang</artifactId>
	<version>2.6</version>
</dependency>

代码:

public static String getHost(String url) {
	if (!(StringUtils.startsWithIgnoreCase(url, "http://") || StringUtils
			.startsWithIgnoreCase(url, "https://"))) {
		url = "http://" + url;
	}

	String returnVal = StringUtils.EMPTY;
	try {
		Pattern p = Pattern.compile("(?<=//|)((\\w)+\\.)+\\w+");
		Matcher m = p.matcher(url);
		if (m.find()) {
			returnVal = m.group();
		}

	} catch (Exception e) {
	}
	if ((StringUtils.endsWithIgnoreCase(returnVal, ".html") || StringUtils
			.endsWithIgnoreCase(returnVal, ".htm"))) {
		returnVal = StringUtils.EMPTY;
	}
	return returnVal;
}

 

0
1
分享到:
评论
4 楼 小网客 2013-12-26  
diggywang 写道
小网客 写道
diggywang 写道
不太完善
如netty.io
m-team.cc
这种你就算不出来了

能算出来,你试试

呃,是说的不对,第一次没仔细看...
但URI只解释协议头(可选)和第一个分隔符之间的内容,你的方法只是把这中间内容最后做个处理,看是不是html、htm结尾,但不能判断域名有效性(或后缀有效性,如svn.iteye.xxoo,但实际是没有xxoo域名的)

总之还是看实际需要了。

恩 ,我获取完成之后做了下过滤,因为单纯的ip也是可以校验同构的,过滤条件为可列的顶级域名后缀
3 楼 diggywang 2013-12-26  
小网客 写道
diggywang 写道
不太完善
如netty.io
m-team.cc
这种你就算不出来了

能算出来,你试试

呃,是说的不对,第一次没仔细看...
但URI只解释协议头(可选)和第一个分隔符之间的内容,你的方法只是把这中间内容最后做个处理,看是不是html、htm结尾,但不能判断域名有效性(或后缀有效性,如svn.iteye.xxoo,但实际是没有xxoo域名的)

总之还是看实际需要了。
2 楼 小网客 2013-12-26  
diggywang 写道
不太完善
如netty.io
m-team.cc
这种你就算不出来了

能算出来,你试试
1 楼 diggywang 2013-12-26  
不太完善
如netty.io
m-team.cc
这种你就算不出来了

相关推荐

Global site tag (gtag.js) - Google Analytics