这是一个利用正则表达式获取本地储存的文件(txt doc html)或网页中得Email地址。在原理上接近网络爬虫。
但是我在做测试得时候,不能获取openOffice的文件中的地址。应该是编码问题。可是openOffice号称自己
完全支持MS Office 得文件,那编码应该式兼容的啊。而MS的doc文件在试验中式成功的。这个我问题我以后再看看吧。
其中的英语是在太面,但是我得坚持用英语写。
-
-
importjava.io.BufferedReader;
-
importjava.io.FileNotFoundException;
-
importjava.io.FileReader;
-
importjava.io.IOException;
-
importjava.io.InputStream;
-
importjava.io.InputStreamReader;
-
importjava.net.HttpURLConnection;
-
importjava.net.MalformedURLException;
-
importjava.net.URL;
-
importjava.util.regex.Matcher;
-
importjava.util.regex.Pattern;
-
-
publicclassReadFileFromLocalAndWeb{
-
-
publicvoidtest(){
-
-
System.out.println("********************GetEmailAddressFromLocaldoc********************");
-
try{
-
-
BufferedReaderbr=newBufferedReader(newFileReader("E://workspace//Project_For_ToyTest//doc//EmailAddress.txt"));
-
Stringline="";
-
while((line=br.readLine())!=null){
- parser(line);
- }
-
}catch(FileNotFoundExceptione){
- e.printStackTrace();
-
}catch(IOExceptione){
- e.printStackTrace();
- }
-
-
System.out.println("********************GetEmailAddressFromtheWeb********************");
-
Stringline="";
- InputStreamurlStream;
-
try{
-
URLurl=newURL("http://www.8885.net/bbs/thread-189746-1-3.html");
- HttpURLConnectionconnection=(HttpURLConnection)url.openConnection();
- urlStream=connection.getInputStream();
-
BufferedReaderbr=newBufferedReader(newInputStreamReader(urlStream,"gbk"));
-
while((line=br.readLine())!=null){
- parser(line);
- }
-
}catch(MalformedURLExceptione){
- e.printStackTrace();
-
}catch(IOExceptione){
- e.printStackTrace();
-
}finally{
- }
- }
-
-
privatevoidparser(Stringline){
-
-
Patternp=Pattern.compile("[//w[.-]]+@[//w[.-]]+//.[//w]+");
- Matcherm=p.matcher(line);
-
while(m.find()){
- System.out.println(m.group());
- }
- }
-
-
publicstaticvidemain(String[]args){
-
ReadFileFromLocalAndWebt=newReadFileFromLocalAndWeb();
- t.test();
- }
- }
-
分享到:
相关推荐
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一...
使用正则表达式匹配抓取的百度百家文章列表
匹配Email地址的正则表达式 匹配网址URL的正则表达式 匹配国内电话号 匹配中国邮政编码 匹配身份证 匹配ip地址 匹配特定字符串 匹配中文字符的正则表达式 匹配双字节字符(包括汉字在内) 匹配HTML标记的正则表达式 ...
正则表达式,正则表达式,正则表达式 正则表达式 正则表达式 正则表达式 正则表达式 正则表达式 正则表达式
常用正则表达式 正则表达式 常用正则表达式 正则表达式
正则表达式.rar正则表达式.rar正则表达式.rar正则表达式.rar
C#,VS2010,利用正则表达式验证网址(url),
《学习正则表达式》从正则表达式的基本概念讲起,到编写完整的sed和Perl脚本,再到转换HTML文件,将这种强大的工具解释得清晰透彻。...《学习正则表达式》适合对正则表达式感兴趣的程序员和互联网从业者。
IP地址的正则表达式IP地址的正则表达式
正则表达式验证工具 V1.0 本软件主要用于检测正则表达式是否正确。 运行环境:本软件为绿色软件,无需安装,但需要Microsoft .NET Framework 4 支持,如果没有请前去下载(下载路径:...
使用正则表达式来判断用户输入的IP地址格式是否正确
正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式...
正则表达式正则表达式正则表达式正则表达式 验证程序
Java正则表达式Java正则表达式Java正则表达式Java正则表达式
正则表达式帮助 有用的正则表达式帮助 有用的正则表达式帮助 有用的正则表达式帮助 有用的
利用正则表达式巧妙解析度分秒格式字符串,代码简单明了同时易于维护。希望和爱好编程的朋友交流
正则表达式日期校验 正则表达式日期校验 正则表达式日期校验
其中包括windows和linux文件路径的正则表达式;去除空格和斜杠转换的replaceall方法
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成"regex",...
C#中使用正则表达式验证Email格式、IP地址格式和URL网址格式