论坛首页 Java企业应用论坛

行业垂直搜索引擎网页抓取项目

浏览 13274 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2014-05-06   最后修改:2014-05-27
公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!
这是详细需求:
(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。
(2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。
(3) 系统最好用Java开发,可以使用HttpClient, Nutch, Heritrix等一些开源软件。需要提供能维护的、可读的源代码;
(4) 系统要求在一周内要遍历所有给定的网址,搜索速度要求能够接受。并且系统能够根据我们提供的用户名和口令自动登录某些网站进行有目的的抓取,要支持https及其他协议;要求支持英文和汉语及其它语言。
(5) 开发费用30000-50000元,开发周期2个月左右,按照项目进展程度支付开发费用。

ps:

看了大家的回复,非常感谢!首先,这个项目的价格可以商量,如果各位有这方面的经验,请联系我(carl.wu@ccreservoirs.com)。我们现在的搜索引擎基本成形了,唯一缺的就是爬虫这一块,将这些网站的内容爬下来存在数据库或本地均可。

再次感谢!!
   发表时间:2014-05-09  
这样的需求这样的价格估计很难,搜索和抓取本来就是比较核心的东西。
0 请登录后投票
   发表时间:2014-05-09   最后修改:2014-05-09
12w差不多。
0 请登录后投票
   发表时间:2014-05-09  
刚做了一个类似的项目。感觉还是挺麻烦的。
0 请登录后投票
   发表时间:2014-05-10  
价格貌似偏低了。。。如果你在北京我可以说一下我的思路。
0 请登录后投票
   发表时间:2014-05-10  
12W可以考虑。
0 请登录后投票
   发表时间:2014-05-10  
dgz888 写道
价格貌似偏低了。。。如果你在北京我可以说一下我的思路。

我就在北京,如果你方便的话,我们可以见面聊聊,价格可以商量。谢谢。我的email地址是carl.wu@ccreservoirs.com.
0 请登录后投票
   发表时间:2014-05-11  
webzip
0 请登录后投票
   发表时间:2014-05-12  
我有现成的源码
1 请登录后投票
   发表时间:2014-05-13  
价格很低,12W可以考虑!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics