`

30天了解30种技术系列---(16)可视化爬虫工具---Portia

 
阅读更多

     

      Portia是scrapyhub开源的一款可视化的爬虫规则编写工具,提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。(动态网页需要自己编写JS解析器)。

 

      Portia的项目地址为:https://github.com/scrapinghub/portia

      安装方式如下:

       

git clone https://github.com/scrapinghub/portia

 

     在docker的环境下构建

docker build -t portia .

    启动,然后可以通过9001 端口进行访问,

docker run -i -t --rm
-v <PROJECT_FOLDER>/data:/app/slyd/data:rw \
-p 9001:9001 \
--name portia \
portia

访问地址:
http://localhost:9001/static/index.html

    

    效果如下:
   

 
  


 


 

       

我们可以将数据写入mysql 等只需要进行简单的,配置,跟多的内容大家可以去详细了解

 

 大家如果对于哪个技术比较感兴趣,可以私信,我会有重点的在后续文章进行展开。

 

 更多精彩请关注微信 : 图灵搜索

 大家也可以使用中国第一个为程序员打造的搜索引擎:https://www.tulingss.com 进行查看。

  • 大小: 159.8 KB
  • 大小: 61.6 KB
  • 大小: 89.6 KB
  • 大小: 73.2 KB
3
2
分享到:
评论

相关推荐

    Python 爬虫-数据可视化

    是一款工具,它允许用户通过可视化的方式抓取网站数据,无需任何编程知识。使用Portia时,您可以对网页进行注解,标识出希望提取的数据内容,然后Portia将根据这些注解理解并学会如何从类似的页面中抓取数据

    Python-portiaScrapy可视化爬取

    portia:Scrapy 可视化爬取

    Python网络爬虫实习报告.doc

    Python网络爬虫实习报告 目录 一、... Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框 架。 newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框 架。 P

    Python网络爬虫实习报告材料.doc

    Python网络爬虫实习报告 目录 一、... Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框 架。 newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框 架。 P

    用Python写网络爬虫PDF-理查德 劳森(Richard Lawson)

    8.3 使用Portia编写可视化爬虫 133 8.3.1 安装 133 8.3.2 标注 136 8.3.3 优化爬虫 138 8.3.4 检查结果 140 8.4 使用Scrapely实现自动化抓取 141 8.5 本章小结 142 第9章 总结 143 9.1 Google搜索引擎 143 ...

    portia:Scrapy的视觉抓取

    Portia是一种工具,可让您直观地抓取网站,而无需任何编程知识。 使用Portia,您可以为网页添加注释,以标识要提取的数据,Portia将基于这些注释了解如何从相似页面中抓取数据。 跑Portia 运行Portia的最简单方法是...

    Portia中文图文教程

    Portia中文图文教程

    Python自动化办公的第三方库.rar

    Python语言有超过12万个第三方库,覆盖信息...Portia-可视化爬取网页内容 cola-分布式爬虫框架 newspaper-提取新闻、文章以及内容分析 lxml-lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式

    用Python写网络爬虫

    《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行...

    用Python写爬虫-源码.rar

    * [portia](https://github.com/scrapinghub/portia) (Ch 8) * [scrapely](https://github.com/scrapy/scrapely) (Ch 8) This examples will break in future as websites change and dependencies are updated, ...

    用Python写网络爬虫.pdf

    8.3 使用Portia编写可视化爬虫 133 8.3.1 安装 133 8.3.2 标注 136 8.3.3 优化爬虫 138 8.3.4 检查结果 140 8.4 使用Scrapely实现自动化抓取 141 8.5 本章小结 142 第9章 总结 143 9.1...

    《用Python写网络爬虫》高清中文版

    《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行...

    用Python写网络爬虫_爬虫_

    本书讲解 了 如何使用P川lOil来编写 网络爬虫程序 , 内 容包括 网络爬虫简介 , 从页面 中 抓取数据 的三种方法 , 提取缓存 中 的 数据 , 使用 多 个线程和进程来进行并发抓取 , 如何抓取动态页面 中 的 内 容 ...

    用Python写网络爬虫(PDF版)

    本书讲解了如何使用Python来编写网络爬虫程序, 内容包括网络爬虫简 介, 从页面中抓取数据的三种方法, 提取缓存中的数据, 使用多个线程和进 程来进行并发抓取, 如何抓取动态页面中的内容, 与表单进行交互, ...

    入门使用导引.pptx

    爬虫可视化框架入门使用图解导引 scrapy portia

    用Python写网络爬虫_876071

    《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行...

Global site tag (gtag.js) - Google Analytics