阅读更多
开源力量公开课第31期课程题目——Nutch:从搜索引擎到网络爬虫

开课时间:2013年9月17日 19:00 - 21:30

现场或线上参课:

  • 现场参加(免费):北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面) (上海的同学注意了!:本期公开课在北京举行,不在上海,上海的同学需要通过线上参与)
  • 线上直播(免费):邮件报名后将即时提供线上参课网址
现场或线上参课:http://www.osforce.cn/uncategorized/1703.html

报名:

  • 发邮件到 osf@osforce.cn ,邮件标题:开源力量公开课第30期, 邮件正文:在线或现场+姓名+公司+职位+联系电话
  • 邮件报名后,我们将即时回复线上参课网址
  • 若未收到不要前往现场的邮件,默认表示通过
  • 不接受未报名空降,拒绝放鸽子
课程背景:

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。

课程大纲:

  • Nutch是什么?
  • Nutch的设计初衷?
  • 为什么要学习Nutch?
  • Nutch的设计目标
  • Nutch的发展历程
  • Nutch的整体架构
  • Nutch 3大分支版本
  • Nutch的应用领域
  • Nutch的使用
讲师介绍:

杨尚川,系统架构设计师,系统分析师,2013年度优秀开源项目APDPlat发起人,资深Nutch搜索引擎专家。多年专业的软件研发经验,从事过管理信息系统(MIS)开发、移动智能终端(Win CE、Android、Java ME)开发、搜索引擎(nutch、lucene、solr、elasticsearch)开发、大数据分析处理(Hadoop、Hbase、Pig、Hive)等工作。目前为独立咨询顾问,专注于大数据、搜索引擎等相关技术,为客户提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解决方案、技术支持、技术咨询以及培训等服务。

时间安排:

  • 18:30 - 19:00:自我介绍
  • 19:00 - 21:00:讲课
  • 21:00 - 21:30:自由交流
开源力量公开课,每周二晚线上线下同时开课,让我们一起向IT技术大牛们学习!

更多信息:http://www.osforce.cn
  • 大小: 92.1 KB
来自: 开源力量
6
1
评论 共 8 条 请登录后发表评论
7 楼 yangshangchuan 2013-09-18 05:10
课件可到我的博客下载,地址:http://yangshangchuan.iteye.com/blog/1941498
6 楼 啦登2010 2013-09-16 15:14
顶一个。。。。。。。。。。。。。。。。。。
5 楼 yangshangchuan 2013-09-16 01:23
大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。
4 楼 yangshangchuan 2013-09-14 17:45
Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
3 楼 qdj6679 2013-09-13 13:22
支持一下
2 楼 luoshengsha 2013-09-12 09:54
支持下我朋友,杨尚川,好好加油啊 ---罗生沙
1 楼 fat1 2013-09-11 10:46
支持川哥 V4

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Nutch公开课从搜索引擎到网络爬虫

    课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...

  • NUTCH公开课:从搜索引擎到网络爬虫

    Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce...

  • 开源力量公开课1-32期课件下载

    ...第一期 ...开源力量公开课第1期-生产环境下的Java排错调优-施懿民 ...第二期 ...开源力量公开课第2期-Go, 基于连接与组合的语言-许式伟 ...第三期 ...开源力量公开课第3期:2小时学会iOS应用开发 ...开源力量公开课第4期-M...

  • python3.6爬虫库_python3.6 网络爬虫

    《精通Python网络爬虫:核心技术、框架与项目实战》——导读前 言为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。...

  • 大数据基础课02 从萌芽到爆发,大数据经历了哪些发展?

    从大数据概念的提出到现在有四十年的时间,但是我们可以预见,大数据的发展绝对不会止步于前,甚至可以说,大数据的发展才刚刚步入正常的轨道。同时,根据我自己的经验,列举了在当前互联网公司中,大数据相关的工作...

  • Nutch+Solr学习笔记

    最近学习搜索引擎,以下为整理学习笔记:

  • 【WEB搜索技术】课程学习大纲与学习感悟

    导论(1)Web搜索的定义①Web搜索(2)Web搜索的发展背景①搜索引擎(3)Web搜索的挑战性(4)Web搜索的科学价值(5)1.5 Web搜索的研究状况①理论研究②语音搜索方面的研究③图像搜索的理论研究2.搜索引擎基础(1)搜索引擎体系...

  • 关于搜索引擎及其开发

    托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也已经工作了三年、四年。不过我估计,或者说是猜想,...

  • 数据采集及预处理——针对“数据”“采集”“预处理”的理解与解析

    网络数据采集3.ETL三. 预处理总结 前言 一、 数据 在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 数据(data)是事实或观察的结果,是对客观事物的逻辑...

  • 搜索引擎方案,仅脑构思

    多媒体作业,自己定义一个多媒体搜索引擎,并写出方案,留下来,做个纪念 爬虫 (1) 通过网络爬虫大量地下载网页(可以考虑使用诸如Apache Nutch等开源网络爬虫) (2) 通过正则表达式等方式对网页内容进行去噪,过滤...

  • 关于搜索引擎及其开发[转]

    作者:xwjbs 来自:http://blog.csdn.net/xwjbs 托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也...

  • Nutch&Solr小计

    新开一篇专门记Nutch&Solr。 版本 Nutch版本 Nutch目前是两条线路开发,所以2.x并不比1.x来的高,来的新。 1.x(目前,最新1.8,默认搭配hadoop1.2,可以搭配hadoop2.2。)2.x(目前,最新2.2.1,默认搭配hadoop1.2...

  • 爬虫大全,爬虫工具汇总

    开源爬虫 开发语言 软件名称 软件介绍 许可证 Java Arachnid 微型爬虫框架,含有一个小型 HTML 解析器。是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够...

  • linux聊天系统,采用微信小程序与PC端双端开发。

    后台采用apache服务器下的cgi处理c语言做微信小程序后台逻辑的脚本映射。PC端的服务器和客户端都是基于c语言写的。采用mysql数据库进行用户数据和聊天记录的存储。.zip C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

  • 基于Cartographer的室内SLAM系统研究与实现

    本文研究了谷歌的Cartographer室内SLAM算法,为了提高其建图和定位的精确度对算法进行了改进。

  • 示例代码:spring actuator添加自定义endpoint

    示例代码:spring actuator添加自定义endpoint

  • 关于Windows 9x的vmm32问题解决方法

    关于Windows 9x的vmm32问题解决方法

  • 基于JSP+Servlet的房源出租管理系统,适合毕业设计 和 大作业.zip

    该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

  • 算法设计与分析 实验二 分治法求最近点对

    算法设计与分析 实验二 分治法求最近点对

  • git忽略文件的配置文件

    git忽略文件

Global site tag (gtag.js) - Google Analytics