`
Jarymin
  • 浏览: 66919 次
  • 性别: Icon_minigender_1
  • 来自: Mars
社区版块
存档分类
最新评论

New SubProject TPDA

阅读更多

Xspider2的前期已经完成,目前的版本是0.1.1b可以实现

 

Single page的抓取; 页面深度的返回与存储

 

现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释

 

TPDA: The Page/Point Depth Algorithm.

 

争取实现:

  • 页面深度和路径
  • 无分词文本空间高频词语提取
  • 路径最优算法
核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics