30天了解30种技术系列---(16)可视化爬虫工具---Portia

jackchan

浏览: 62914 次

最近访客更多访客>>

leisureWong

独浮云

luojianbing

dcmr

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 老钱说技术
浏览量：47689

文章分类

社区版块

存档分类

博客分类：

30天了解30种技术

Portia是scrapyhub开源的一款可视化的爬虫规则编写工具，提供可视化的Web页面，你只需要通过点击标注页面上你需要抽取的数据，不需要任何编程知识即可完成规则的开发。（动态网页需要自己编写JS解析器）。

Portia的项目地址为：https://github.com/scrapinghub/portia

安装方式如下：

git clone https://github.com/scrapinghub/portia

在docker的环境下构建

docker build -t portia .

启动，然后可以通过9001 端口进行访问，

docker run -i -t --rm
-v <PROJECT_FOLDER>/data:/app/slyd/data:rw \
-p 9001:9001 \
--name portia \
portia

访问地址：
http://localhost:9001/static/index.html

效果如下：

我们可以将数据写入mysql 等只需要进行简单的，配置，跟多的内容大家可以去详细了解

大家如果对于哪个技术比较感兴趣，可以私信，我会有重点的在后续文章进行展开。

更多精彩请关注微信 : 图灵搜索

大家也可以使用中国第一个为程序员打造的搜索引擎：https://www.tulingss.com 进行查看。

查看图片附件

3
顶

2
踩

分享到：

30天了解30种技术系列(17)---词关系分析神 ... | 30天了解30种技术系列(15)----Docker多容器 ...

2015-08-21 11:41
浏览 8383
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

30天了解30种技术系列---(16)可视化爬虫工具---Portia

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

30天了解30种技术系列---(16)可视化爬虫工具---Portia

评论

发表评论

相关推荐

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

30天了解30种技术系列---(25)开源的计费及支付平台--killbill

30天了解30种技术系列---(24)开源网站流量分析工具Piwik

30天了解30种技术系列---(23)SparkR

30天了解30种技术系列---(22) Bootstrap在线编辑器4款

30天了解30种技术系列---(21)Redis监控工具--RedisLive

30天了解30种技术系列---(20)React .js 一个比较有意思的前端框架

30天了解30种技术系列(20)AngularJS的一部分对手---React.js

30天了解30种技术系列(19)------开源分布式协调系统Zookeeper

30天了解30种技术系列(18)--- 强大的日志管理工具--Logstash

30天了解30种技术系列---(18) 强大的日志管理工具--Logstash

30天了解30种技术系列(17)---词关系分析神器Word2vec

30天了解30种技术系列(15)----Docker多容器部署利器-Compose

30天了解30种技术系列(14)----Docker集群管理利器Swarm

30天了解30种技术系列(14)----Docker集群管理利器Swarm

30天了解30种技术系列---(13)Docker UI框架DockerUI

30天了解30种技术系列---(13)Docker UI框架DockerUI

30天了解30种技术系列---(12)红的发紫的Docker

30天了解30种技术系列---(12) 红的发紫的Docker

30天了解30种技术系列---(11)Java开发者梦想的框架Play

最近访客更多访客>>