`
sbear
  • 浏览: 44307 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

从网页中提取图片地址(java 正则表达式)

阅读更多

   /**
    * 得到网页中图片的地址
     */
   public static List<String> getImgStr(String htmlStr){   
        String img="";   
        Pattern p_image;   
        Matcher m_image;   
        List<String> pics = new ArrayList<String>();

        String regEx_img = "<img.*src=(.*?)[^>]*?>"; //图片链接地址   
        p_image = Pattern.compile 
                (regEx_img,Pattern.CASE_INSENSITIVE);   
       m_image = p_image.matcher(htmlStr); 
       while(m_image.find()){   
            img = img + "," + m_image.group();   
            Matcher m  = Pattern.compile("src=\"?(.*?) 
                         (\"|>|\\s+)").matcher(img); //匹配src
            while(m.find()){
            	pics.add(m.group(1));
            }
        }   
           return pics;   
    }  
     //重点在于正则表达式 <img.*src=(.*?)[^>]*?>   
     //               src=\"?(.*?)(\"|>|\\s+)                     
分享到:
评论
1 楼 zhuchao_ko 2012-06-27  

相关推荐

    正则表达式提取图片

    正则表达式提取图片,通过正则表达式提取段落中的问题,便于排版和美观

    java正则表达式获取指定HTML标签的指定属性值且替换的方法

    下面小编就为大家带来一篇java正则表达式获取指定HTML标签的指定属性值且替换的方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

    Regex:Java中简单,快速的正则表达式匹配器

    这是一个非常基本的正则表达式匹配器,完全基于Java,具有基于超线性时间复杂度实现。 范围 支持的元字符是* +? ()| 和 \。 运算符的优先级是(从最弱的位置开始):|,然后是隐式级联,然后是* +?,并在顶部...

    用正则表达式替换图片地址img标签

    如何替换一段HTML字符串中包含的所有img标签的src值?下面我们用正则解决这个问题

    正则截取文件名,文件后缀,文件路径

    正则截取文件名,文件后缀,文件父路径,去掉文件后缀 FileNameUtils.getParentPath : 获取父路径 如 C:\A\B\test.txt 返回: C:\A\B\ /home/usr/test.txt 返回 /home/usr/ FileNameUtils.getSuffix : 获取文件后缀...

    java项目源码之网络爬虫(蜘蛛)的实现.rar

    这个Java项目是一个网络爬虫,也称为网络蜘蛛,旨在自动地从互联网上抓取网页内容并进行处理。该网络爬虫具有以下主要功能: 网页抓取:通过指定的起始URL,网络爬虫会递归地抓取网页内容,包括HTML、CSS、...

    Java 各类爬虫代码.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    Boss直聘Java爬虫.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    模拟登录的Java爬虫实现.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    java爬虫获取网页数据导出到excle.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    房产数据爬虫java 房天下.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    instagram用户信息 照片 视频动态 Java爬虫.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    蜂巢爬虫系统 .zip

    是一套只需要定义XPath,就可实现爬取网站,APP的系统, 支持多种解析方式(XPath,正则表达式),多种下载方式(HttpClient库, PhantomJs, Selenium),多种输出方式(Excel,MongoDB)。 爬虫(Web Crawler)是一种...

    Java网络爬虫MySpider.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    java分布式爬虫,主机和从机控制的机制.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    使用RxJava2 和 Java 8的特性开发的图片爬虫.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    基于 webmagic 的 Java 爬虫应用.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    基于Java的多线程爬虫框架.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    java8源码-Java-picture-crawler:Java爬虫工具,输入图片url地址即可爬取整页资源文件

    该工具使用用htmlUnit进行爬取网页,用正则表达式进行提取,然后使用java.net.*类下的工具进行图片下载,实现简单批量下载图片功能 RunTime java8 Author want to say 批量下载工具仅限在法律范围内进行使用 违法...

    JAVA爬虫 并发爬取静态小说网站的全部小说.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

Global site tag (gtag.js) - Google Analytics