`
liangguanhui
  • 浏览: 114090 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论
阅读更多

刚刚发布了0.1.0-b13,顺便在这里稍微介绍一下这个项目 (http://code.google.com/p/teucer/)。

Teucer的名称
这个名字纯粹巧合,读者无需深究。(Teucer 的发音可以参考http://www.answers.com/topic/teucer)

In Greek mythology Teucer, was the son of King Telamon of Salamis and his second wife Hesione, daughter of King Laomedon of Troy. He fought alongside his half-brother, Ajax, in the Trojan War and is the legendary founder of the city Salamis on Cyprus. Teucer was the nephew of King Priam of Troy and so the cousin of Hector and Paris - all of whom he fought against in the Trojan War.

Teucer的背景
在面对无联网爆炸性信息量的同时,很多人都有把某些方面的信息抓取下来的需求。如何实现这种爬虫式的定向抓取呢?开始的时候,我是结合HttpClient + ThreadPool + Jkarta oro采集数据的。 后来由于经常使用,也做了一些简单的封装。

不过,无论如何封装、如何简化,静态语言Java的实现都比不上脚本语言来的方便。正与在字符处理的某些方面,从简易方面来说,perl把java远远甩开。于是,Teucer 便诞生了。

Teucer的目标
Teucer 的目标,是构建一种基于Java 极其简单的、高效的、易于扩展的、无需打开庞大IDE的、一种定向爬虫的脚本:
  • 之所以基于Java,是因为我以前一直用Java来抓取网页。Teucer对于JDK的要求是1.5。
  • 这里的简单是相对一般开发人员而言,并不适合普通用户。由于爬虫是需要大量的文本处理,而正则表达式是处理文本的不二之选,所以,正则表达式是Teucer 核心之一。
  • 高效是指多线程、缓存等。
  • 扩展性是目前的主流,不得不从啊。
  • 为何我要强调庞大的IDE呢?因为我的机器配置一般般,打开eclipse之流内存消耗急剧上升,所以我对IDE是又爱又恨啊。我写Teucer 脚本一般是用UltraEdit?,不喜欢用D版软件的朋友可以考虑用Notepad++。
  • Teucer 是一种目标非常明确的脚本,你不要指望它可以跟Perl、Python一样强大,因为,我没有这个实力。我的目标仅仅是让Teucer 可以完成一般网页定向抓取。

Teucer要点
  • 过程处理
  • “fork”以及层次式的变量
  • I/O 操作
  • 正则表达式
1
0
分享到:
评论
1 楼 presses 2009-09-15  
抓数据不难,但做成通用的不易。希望能帖些文档出来看看。

相关推荐

    DNA进化算法及其改进研究样本.doc

    DNA进化算法及其改进研究样本.doc

    基于Matlab的水果识别程序:融合图像处理与深度学习技术

    内容概要:本文详细介绍了使用Matlab编写的水果识别程序。首先简述了人工智能和机器学习在水果识别领域的应用背景,强调了Matlab作为强大编程环境的优势。接着,文章逐步讲解了水果识别程序的具体实现流程,涵盖数据预处理、特征提取、模型训练以及最终的识别算法实现。每个环节都采用了先进的技术和方法,如图像去噪、大小调整、深度学习算法(特别是卷积神经网络CNN),并通过训练神经网络模型来提升识别精度。此外,还讨论了相关技术手段和技术挑战,展示了Matlab在图像处理和计算机视觉方面的强大能力。 适合人群:对图像处理、机器学习感兴趣的科研人员、学生及工程师。 使用场景及目标:适用于希望深入了解Matlab环境下水果识别程序的设计与实现的研究者;旨在帮助使用者掌握从数据准备到模型部署的一系列技能,为实际项目提供理论支持和技术指导。 其他说明:文中不仅提供了详细的程序实现步骤,还对未来发展方向进行了展望,鼓励更多人参与到水果识别及相关领域的研究中。

    scratch少儿编程逻辑思维游戏源码-修复塔.zip

    scratch少儿编程逻辑思维游戏源码-修复塔.zip

    spring-boot-2.5.13.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    scratch少儿编程逻辑思维游戏源码-天空之球.zip

    scratch少儿编程逻辑思维游戏源码-天空之球.zip

    spring-boot-1.0.2.RELEASE.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    scratch少儿编程逻辑思维游戏源码-土豆兄弟.zip

    scratch少儿编程逻辑思维游戏源码-土豆兄弟.zip

    scratch少儿编程逻辑思维游戏源码-小鸟冒险.zip

    scratch少儿编程逻辑思维游戏源码-小鸟冒险.zip

    scratch少儿编程逻辑思维游戏源码-跳进火山.zip

    scratch少儿编程逻辑思维游戏源码-跳进火山.zip

    scratch少儿编程逻辑思维游戏源码-跳跃引擎.zip

    scratch少儿编程逻辑思维游戏源码-跳跃引擎.zip

    scratch少儿编程逻辑思维游戏源码-旋转(4).zip

    scratch少儿编程逻辑思维游戏源码-旋转(4).zip

    scratch少儿编程逻辑思维游戏源码-死里逃生.zip

    scratch少儿编程逻辑思维游戏源码-死里逃生.zip

    spring-boot-1.3.5.RELEASE.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    spring-boot-2.6.10.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    HPERP商业软件实施解决方案模板.doc

    HPERP商业软件实施解决方案模板.doc

    spring-boot-2.2.3.RELEASE.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    Drogon是一个基于C++17/20的Http应用框架,使用Drogon可以方便的使用C++构建各种类型的Web应用服务端程序

    Drogon是一个基于C++17/20的Http应用框架,使用Drogon可以方便的使用C++构建各种类型的Web应用服务端程序。

    private-data-20260427.7z.pd

    私有数据

    scratch少儿编程逻辑思维游戏源码-双重困境.zip

    scratch少儿编程逻辑思维游戏源码-双重困境.zip

    rocksdbjni-6.15.4.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

Global site tag (gtag.js) - Google Analytics