`
fulerbakesi
  • 浏览: 564221 次
文章分类
社区版块
存档分类
最新评论

利用正则表达式抓取Email地址

 
阅读更多

这是一个利用正则表达式获取本地储存的文件(txt doc html)或网页中得Email地址。在原理上接近网络爬虫。

但是我在做测试得时候,不能获取openOffice的文件中的地址。应该是编码问题。可是openOffice号称自己

完全支持MS Office 得文件,那编码应该式兼容的啊。而MS的doc文件在试验中式成功的。这个我问题我以后再看看吧。

其中的英语是在太面,但是我得坚持用英语写。

  1. /*
  2. *Thisprogramwaswriteforcatchingemailaddresses
  3. *fromadocumentthatcontainslotsofthem.
  4. */
  5. importjava.io.BufferedReader;
  6. importjava.io.FileNotFoundException;
  7. importjava.io.FileReader;
  8. importjava.io.IOException;
  9. importjava.io.InputStream;
  10. importjava.io.InputStreamReader;
  11. importjava.net.HttpURLConnection;
  12. importjava.net.MalformedURLException;
  13. importjava.net.URL;
  14. importjava.util.regex.Matcher;
  15. importjava.util.regex.Pattern;
  16. /**
  17. *@authorSancho_lai
  18. *
  19. */
  20. publicclassReadFileFromLocalAndWeb{
  21. publicvoidtest(){
  22. /**
  23. *thispartgetemailaddressfromlocaldoc
  24. */
  25. System.out.println("********************GetEmailAddressFromLocaldoc********************");
  26. try{
  27. /*
  28. *hereyoucaninputwhateveraddressofdocthatcontainstheemailaddressesyouwant,
  29. */
  30. BufferedReaderbr=newBufferedReader(newFileReader("E://workspace//Project_For_ToyTest//doc//EmailAddress.txt"));
  31. //BufferedReaderbr=newBufferedReader(newFileReader("E://workspace//Project_For_ToyTest//doc//NewOpenDocumentText.odt"));
  32. Stringline="";
  33. while((line=br.readLine())!=null){
  34. parser(line);
  35. }
  36. }catch(FileNotFoundExceptione){
  37. e.printStackTrace();
  38. }catch(IOExceptione){
  39. e.printStackTrace();
  40. }
  41. /**
  42. *thispartgetemailaddressfromweb
  43. */
  44. System.out.println("********************GetEmailAddressFromtheWeb********************");
  45. Stringline="";
  46. InputStreamurlStream;
  47. try{
  48. URLurl=newURL("http://www.8885.net/bbs/thread-189746-1-3.html");
  49. HttpURLConnectionconnection=(HttpURLConnection)url.openConnection();
  50. urlStream=connection.getInputStream();
  51. BufferedReaderbr=newBufferedReader(newInputStreamReader(urlStream,"gbk"));
  52. while((line=br.readLine())!=null){
  53. parser(line);
  54. }
  55. }catch(MalformedURLExceptione){
  56. e.printStackTrace();
  57. }catch(IOExceptione){
  58. e.printStackTrace();
  59. }finally{
  60. }
  61. }
  62. privatevoidparser(Stringline){
  63. //thisistheemailaddresspattern.
  64. Patternp=Pattern.compile("[//w[.-]]+@[//w[.-]]+//.[//w]+");
  65. Matcherm=p.matcher(line);
  66. while(m.find()){
  67. System.out.println(m.group());
  68. }
  69. }
  70. publicstaticvidemain(String[]args){
  71. ReadFileFromLocalAndWebt=newReadFileFromLocalAndWeb();
  72. t.test();
  73. }
  74. }
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics