`
fuyun369
  • 浏览: 30418 次
  • 性别: Icon_minigender_1
  • 来自: 江苏
社区版块
存档分类
最新评论
阅读更多
一、music.qq.com 歌曲数据爬虫程序

    该项目是video.google.cn视频搜索引擎项目的爬虫程序学习案例,以music.qq.com为数据源,利用HTMLParser开发网络爬虫程序,抓取music.qq.com歌曲数据资源,抓取到歌曲数据23万余首,歌手资料及头像图片近两万,并保存到本地硬盘。


二、仿video.google.cn大型百万级视频搜索引擎项目
    该项目分视频数据采集和搜索引擎两部分,开发周期耗时一个月,锻炼知识点:J2SE基础+JDBC+HTMLParser+Lucene+Swing+JSP+Servlet。



     1.   视频数据采集

       以56.com为数据源,利用HTMLParser开发网络爬虫程序,抓取56.com的用户资料/视频/专辑数据并写入数据库,编写的爬虫程序能抓取到56.com百万级的视频数据资源。


     2.  搜索引擎开发

         用Lucene开发视频搜索引擎,首先以庖丁中文分词来生成视频数据的索引库,然后分别用Swing和JSP+Servlet来开发桌面版和WEB版的视频搜索引擎。


       项目架构图如下:


三、 简易版OA项目


        该项目开发时间较短,仅规划了较简单的OA功能,目的在于锻炼Struts2+Spring+Hibernate+EHCache+URLRewrite+JQuery的综合运用。


        功能包括:

        1.  部门管理。

        2.  职员管理。

        3.  权限管理(锻炼Struts2拦截器的应用)。

        4.  共享文档(锻炼Struts2的文件上传)

        5.  留言板(锻炼Struts2结合jquery实现ajax)。

        6.  全部页面一律要求国际化,OGNL表达式开发。



四、 仿土豆网(www.tudou.com)大型WEB2.0视频网站项目
          整个项目分土豆网前台和网站后台管理系统两部分。


         首先将第一期的视频搜索引擎项目百万级的视频/专辑/用户数据导入土豆网数据库,在百万级的大数据量情况下锻炼数据库的优化。然后分八个小组团队协作开发,周期耗时一个半月。


         1. 土豆网前台

             先从土豆网上将其HTML,CSS,Javascript,图片等相关文件下载到本地硬盘。
           开发土豆网的首页、豆单、排行、视频播放页、用户注册/登录、用户个人主页、日志管理、视频上传/管理、豆单管理、标签管理、好友管理、短消息等功能。
      


         技术工具:

        a) 采用Trufun Kant for Java的Eclipse插件做UML用例图和类图设计。

        b) 采用Apache+Tomcat做Web Server。

        c) 采用Struts2+Spring+Hibernate+EHCache+URLRewrite做服务器端实现。

        d) 采用JQuery做Ajax实现。

        e) 采用Flex/Flash AS3开发FLV视频播放器。

        f) 采用mencoder做服务器端视频格式到FLV的转码。

        g) 采用FFMPEG 做视频的截图。

        h) 数据库做索引优化,EHCache查询缓存,前台频道首页一律由管理后台生成纯HTML静态页。


        2. 网站后台管理系统


             网站管理后台主要负责注册用户、视频、豆单等数据的管理(增/删/查/改/审核/推荐),注册用户、PV流量、视频播放次数等数据的图形报表统计,生成网站前台纯静态HTML页面等功能。


           技术工具:


           a) 采用Apache+Tomcat做Web Server。

           b) Spring+Hibernate+EHCache做服务器端实现。

           c) 纯Flex 开发管理后台界面,Flex Chart 组件开发统计报表。

           d) 采用Blazeds实现Flex与Spring交互。

           e) 采用JAVA反射机制(java.lang.reflect)开发HTML页面生成的模板引擎。







  • 大小: 52.9 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics