毕业设计4－－－爬虫的研究

fullfocus

浏览: 100899 次
来自: 厦门

最近访客更多访客>>

movw

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

毕业设计

搜索引擎 Web 算法 Linux 数据挖掘

昨天研究的NUTCH，是个完整的项目，虽然功能很强，但据说自定义性并不是很出色（自己还没有时间去时间一下），所以现在有必要研究一下单纯的Crawl，这里有JSPIDER（java）, LARBIN（c++, 好像一定要在LINUX环境下，不知道有没有WINDOWS版的）, websphinx(java)。（另外carrot2 聚类搜索也挺有意思，LARBIN的相关资料http://www.matrix.org.cn/thread.shtml?topicId=22644&forumId=32）。

根据毕业设计的题目要求：

－－－－－－－－－－－－－－－－－－－－－－－－－－－－

对Web搜索引擎返回的页面进行自动的分类。Web搜索引擎返回的页面是动态的，其文档分类的类别是未知的、不固定的。根据页面内容自身的差异，使用文档聚类的方法对页面进行自动归类。本系统包含以下几个子功能：<o:p></o:p>

1.从搜索引擎获得Web页面<o:p></o:p>

2.Web网页文档的预处理<o:p></o:p>

3.文档聚类算法<o:p></o:p>

4.Web文档聚类结果的可视化展现<o:p></o:p>

要求：<o:p></o:p>

Java/C++编程；<o:p></o:p>

数据挖掘算法；

－－－－－－－－－－－－－－－－－－－－－－

发现论文题目的意思可能并不是要自己实现爬虫从网上抓取网页，可能直接从其他web搜索引擎得到网页（很郁闷，到现在导师还不开会，确定我们的论题，害得我们这么早跑到学校又不知所错，还有是要做成自动归类还是自动聚类也没搞清楚）。所以下午研究了下GOOGLE API，也看了一下元搜索引擎，还没仔细看，先记录到这里了。

分享到：

IT人第三空间－－我学软件工程专业四年的一 ... | 毕业设计3－－－Nutch的使用

2007-03-03 00:59
浏览 3217
评论(1)
论坛回复 / 浏览 (1 / 4698)
查看更多

1 楼 soulmachine 2007-03-08

我现在也在做元搜索引擎，开始就要做搜索结果聚类，我直接从carrot2 下手

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论