`
pan_这名还行
  • 浏览: 42654 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论

视频地址挖掘抓取

    博客分类:
  • java
阅读更多
年前做的视频地址挖掘工具,不知道现在关键标签还对不对,放上来算是个温习吧
代码又臭又长,现在看了很汗颜...,本人菜鸟,轻拍砖
	//得到视频标题
    public String getVideoTitle(String beginTitleStr,int beginTextNum,String endTitleStr){
		int beginTitleNum =  videoStr.indexOf(beginTitleStr,beginTextNum)+beginTitleStr.length();
		int endTitleNum = videoStr.indexOf(endTitleStr,beginTitleNum);
		String videoTitle = new ToolsSubString().mySubString(videoStr,beginTitleNum,endTitleNum);		
		return videoTitle;
    }

	//得到视频地址ID
    public String getVideoId(String beginIdStr,int beginTextNum,String endIdStr){
		int beginIdNum = videoStr.indexOf(beginIdStr,beginTextNum)+beginIdStr.length();
		int endIdNum = videoStr.indexOf(endIdStr,beginIdNum);
		String videoId = new ToolsSubString().mySubString(videoStr,beginIdNum,endIdNum);
		return videoId;
    }
    
    //抓取土豆网视频信息的方法
    public void catchTudouVideo(int neadCatchNum,String beginSearchVideoNumStr){
    	//抓取内容定位
		String endSearchVideoNumStr = "</em>";
		String beginTextStr = "<a class=\"inner\" target=\"new";
		String beginIdStr = "href=\"http://www.tudou.com/programs/view/";
		String endIdStr = "/\"";
		String beginTitleStr = "title=\"";		
		String endTitleStr = "\"";
		int beginTextNum = 0;
		
		//得到搜索到视频个数,循环得到视频信息		
		int searchVideoNum = getVideoNum(neadCatchNum,beginSearchVideoNumStr, endSearchVideoNumStr);
		for(int i=0;i<searchVideoNum;i++){
			//内容定位
			beginTextNum = videoStr.indexOf(beginTextStr,beginTextNum)+beginTextStr.length();
			
			//得到视频信息
			String videoTitle = getVideoTitle(beginTitleStr, beginTextNum, endTitleStr);
			String videoId = getVideoId(beginIdStr, beginTextNum, endIdStr);					
			String videoUrl = "http://www.tudou.com/v/"+videoId+"/v.swf";

			//创建video对象保存视频信息,并添加到video集合,为存入数据库做准备
			VideoEntity video = new VideoEntity(videoTitle,"土豆网",videoUrl);
			videoList.add(video);
		}
    }
分享到:
评论

相关推荐

    AcFun视频抓取软件2016

    AcFun视频抓取软件2016。大数据维基网(www.dashuju.wiki)——大数据工作学习第一站,最全的大数据资源导航网站。聚合互联网、股市、娱乐、社交、电商、APP、生活等各类大数据场景需求,火车头、八爪鱼、集搜客等各大...

    Python网络数据爬虫抓取代码

    Python网络数据抓取代码主要涉及Python爬虫技术,可以用于自动化采集网络上的数据,如网页内容、图片、视频、音频等。这些数据可以用于数据分析、机器学习、自然语言处理等多个领域。 适用人群: Python网络数据...

    python爬虫的学习和代码模板的笔记记录。涉及文本数据、图片数据、音频数据、视频数据的抓取。.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    推特 图片 视频 爬虫;一键下载.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    使用Python编写简单网络爬虫抓取视频下载资源

    我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题。 Python一直是我主要使用的脚本语言,没有之...

    python新浪微博数据分布式挖掘

    一:新浪微博接口之调用 二:新浪微博数据之分布式爬虫 三:基于hadoop-streaming分布式爬虫 四:单条微博数据抓取和统计视频展示 五:13亿用户关系(比例化)模型可视化视频展示

    Bilibili视频数据爬虫 精确爬取完整的b站视频数据.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    下载指定的 火山小视频(hotsoon) 用户下的视频,火山爬虫,火山小视频爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    利用爬虫爬取微博用户微博,对所发微博文本进行可视化、文本分析

    依据目标用户微博UID抓取一定时期内目标用户所发(原创和转发)微博(包含图片、视频),保存到本地 依据所抓取目标用户微博内容、目标用户头像制作目标用户微博关键词词云 依据目标用户微博个人资料,制作目标用户个人...

    网络爬虫一种搜索引擎

     (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。  (4) 通用搜索...

    视频爬虫项目.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    视频网站爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    140种Python标准库、第三方库和外部工具.pdf

    这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视化、交互学习和集成开发以及其他Python协同数据工作工具。

    千万级图片爬虫、视频爬虫 Image Spider.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    小红书爬虫,可爬取无水印图片和视频.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    爬虫脚本.zip

    影视资源站视频抓取。 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据...

    instagram用户信息 照片 视频动态 Java爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    以Node.js基于express以及爬虫实现的视频资源后端.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    网络视频爬虫系统第一版.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    基于IjkPlayer的仿Bilibili Android客户端,直播及点播视频源来自于网络爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

Global site tag (gtag.js) - Google Analytics