根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。
测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。
测试语言:php,但是实际开发语言可能会用c#。
数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。
虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。
搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。
je怎么没有回自己的功能....我只好修改下
数据如果要跑的话,增量将是50万的100倍,,, 当然不可能跑这么多.
目前测试结果是80%的准确率, 下周应该还能提升准确率, 完成第一个测试. 如此下去某公司的优势应该不存在了.
做得比较吃力, 但是想想能这个够刺激, 所以写得比较high.
今天边看灾情边看hadoop, 做datanode满适合的. 看了下, 目前solr+hadoop的还没人做, 只听说aol在研究. 不知道是否会开源, 如果没有, 那就要自己整合了, 要么用c++写php的扩展来操作hadoop, 要么就是用python, 当然php操作java来完成也可以.到时候看效率和稳定性把.
目前偏向python, 理由: 我很懒.
分享到:
相关推荐
反爬虫攻击的现状 常见的反爬策略 防护新思考 智能反爬虫
数据流式处理: 智能流式爬虫库应支持数据流的处理,即抓取到的数据可以在抓取的同时进行处理,而不需要等待所有数据全部抓取完毕。这样可以提高内存使用效率,降低处理延迟。 智能去重和增量更新: 库应具备智能的...
爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文...
《计算机毕业设计:基于Face++网络爬虫+人脸融合算法智能发型推荐程序》是一项集合了网络爬虫技术、人脸融合算法以及智能推荐系统的综合性计算机毕业设计项目。该项目旨在通过Python编程实现一个能够根据用户面部...
网络爬虫 网络爬虫 网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫网络爬虫
网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...
基于C#.NET的高端智能化网络爬虫
Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 ...
需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server ...
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
本文简要介绍了用于网页内容过滤的爬虫的基本原理,同时说明了如何使用HTMLPARSER实现过滤。
python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...
本人多年使用的爬虫与反爬虫经验 原理+中间件+源代码 各种爬虫技术+针对各种爬虫而开发的反爬虫技术
爬虫
爬虫(Web Crawler)是一种自动...爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫...
网络爬虫源码网络爬虫源码网络爬虫源码网络爬虫源码网络爬虫源码网络爬虫源码网络爬虫源码网络爬虫源码网络爬虫源码
爬虫(Web Crawler)是一种自动...爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。