最新文章列表

前嗅教你大数据:常见的网站反爬策略与解决方案

  作者 | 前嗅 来源| 前嗅大数据(www.forenose.com) 大家在采集数据的过程中经常会遇到网站反爬的情况,不同网站反爬策略也不尽相同。 今 ...
qianxiu 评论(0) 有235人浏览 2020-11-27 14:10

爬虫系列之数据质量监控(三):kafka统一接口处理逻辑分析

(二)KAFKA统一数据推送接口 1)非空校验 处理逻辑:除标题为空数据直接存入异常MySQL库中外,其他类型的数据直接流到数据质量校验步骤进行分析; 2)数据质量校验 主要是根据每个字段设置的校验规则,对其进行相应的校验处理。 3)二次排重处理: 由于Bloom Filte中的元素只可以添加,不可以被删除。又由于数据量较大(每天5000W左右),长时间会耗费很多内存资源,投入较大。 ...
fanying 评论(0) 有487人浏览 2020-05-26 13:42

ForeSpider采集教程:如何采集网页中附件数据

一. 网站内容 1. 网站截图说明 本教程通过“山西招投标网”官网来采集 链接列表(红框位置) 中正文的附件,故链接入口为:http://www.sxbid.com.cn/ 【官网-二手房】 2. 链接列表采集结果预览
qianxiu 评论(0) 有502人浏览 2019-12-11 14:59

ForeSpider采集教程:如何采集图片及链接地址

一. 网站结构 1. 网站截图说明 采集昵图网某页面中所有图片及链接地址 【昵图网某页面】 2. 采集结果截图
qianxiu 评论(0) 有424人浏览 2019-12-11 14:56

ForeSpider采集教程发布(论坛类):零基础轻松获取数据

本篇以360问答论坛为例: 一.网站结构 1.网站截图说明 某些网站需要登陆后才可进行内容的采集,登陆时需先对登陆信息输入位置进行定位,便于后续采集 【网站登陆页】
qianxiu 评论(0) 有267人浏览 2019-12-10 14:00

ForeSpider采集教程发布(表格类):零基础轻松获取数据

本篇以孔夫子旧书网为例: 一.网站结构 1.网站截图说明 该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取   【网站列表页】
qianxiu 评论(0) 有299人浏览 2019-12-10 13:57

大数据告诉你,五一出行,性价比最高的酒店是它

“五一”假期就要到啦,春夏交接,气候适宜,最是出游好时节,很多人都在为小长假出游做准备。为避免出游遇到突发状况,22日,消费者网与北京阳光消费大数据研究院遍联合发布了《在线旅游消费趋势与消费维权趋势研究报告(2019)》;中国旅游协会也联合了全国90多家交通管理部门,共同发布了《2019五一出行预测报告》。五一出行的热度,可见一斑。 嗅嗅今天就教大家如何利用用大数据,选出性价比最高的酒店。 ...
qianxiu 评论(0) 有313人浏览 2019-04-29 18:05

大数据辟谣:布洛芬用药不慎可能致死?如此标题党居心何在?

相信很多人看到一则“布洛芬用药不慎可能致死”的消息后,内心开始慌乱了。​ (新闻来源:微博热搜排行榜) 毕竟健康是每一个人最关注的话题,而布洛芬也是很多人止痛(发烧头痛、喉咙痛、牙痛、月经痛等)的最常用药物之一。甚至,很多人能好好活着,都是因为布洛芬的功劳。 ​ 今日的这条微博热搜新闻,无疑是破灭了很多人认真活着的希望,带来了无止境的恐惧。正如广大网友所言,布洛芬是我每月的救命稻草;布洛 ...
qianxiu 评论(0) 有445人浏览 2019-04-23 17:20

前嗅教程:如何获取精准客源,提高销量

经常有人问嗅嗅,我是XX行业的,大数据能帮我做什么?可以给我带来客源吗?可以提高我的销量吗?可以增加我的利润吗?今天嗅嗅就以生鲜供货为例 ...
qianxiu 评论(0) 有381人浏览 2019-04-23 10:21

前嗅ForeSpider脚本教程-数据抽取脚本实战教程

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-数据抽取脚本实战教程的,应用场景,数据在源码的html标签里写脚本。具体内容如下:   一.应用场景 当所需要的数据字段大部分需要配置脚本时,可将所有字段的抽取统一放在数据抽取脚本中。 可能用到的类:DOM、EXTRACT。 配置方法:选中数据抽取,点击“脚本窗口”,点击创建按钮。即可在新建的代码框内输入代码。​   二 ...
qianxiu 评论(0) 有356人浏览 2019-04-16 13:11

前嗅ForeSpider脚本教程-链接过滤脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接过滤脚本,应用场景,地址/标题过滤。具体内容如下:   一.应用场景 当可视化抽取到的链接包含不想要的链接地址时,需要进行过滤。可能用到的类是:string,使用到的全局对象是VALUE。 二.地址过滤 场景:链接地址有规律。 示例:可视化配置百度搜索之后的链接抽取,过滤掉不是列表链接和翻页链接的所有链接。​ 脚本实 ...
qianxiu 评论(0) 有326人浏览 2019-04-15 09:52

前嗅ForeSpider脚本教程-链接抽取:自定义链接写脚本

场景:当采集的链接不存在于任何位置,或者想要采集自定义的链接。 示例:天猫商品评论的链接。 ​ 商品评论的链接不在源码中,只能自己拼接评论链接。点击评论翻页,观察翻页规律。 取其中某一链接地址在网页中查看请求返回信息。删除个别不一致的请求参数,观察结果是否变化。可得到最简链接地址。 https://rate.tmall.com/list_detail_rate.htm?itemId=56 ...
qianxiu 评论(0) 有280人浏览 2019-04-12 16:53

前嗅ForeSpider脚本教程-链接抽取:链接在POST请求里写脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在POST请求里写脚本的实战教程。具体内容如下:   当链接地址在源码中不存在,存在于post请求中时,需要使用浏览器的开发者工具来查找链接数据。 1.链接需要循环 场景:一组链接存在于JSON的某个数组中。 示例:采集豆瓣电影,列表页的电影链接。   ​   查看源文件可知,源文件中只有一部分数据, ...
qianxiu 评论(0) 有377人浏览 2019-04-12 16:52

前嗅ForeSpider脚本教程-链接抽取:链接在源码的js变量里写脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在源码的js变量里写脚本的实战教程。具体内容如下:   链接地址可在源码 ...
qianxiu 评论(0) 有1348人浏览 2019-04-10 09:57

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程。具体内容如下: 一.应用场景 当需要手动添加链接时,可添加链接脚本。 在“链接脚本处”,可能用到的类为extractor 、result、url、grabDoc、dom。 二.链接在源码的html标签里 链接地址可在源码中查找到。在目标网页右键,选择“查看 ...
qianxiu 评论(0) 有337人浏览 2019-04-09 09:41

前嗅ForeSpider脚本教程-频道脚本:脚本采集数据

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本,脚本采集数据的实战教程。具体内容如下: 一.场景 此处为高手操作,配置的频道脚本接管所有采集流程,无需再做任何配置。   二.示例 获取下图商品的评论。   ​
qianxiu 评论(0) 有242人浏览 2019-04-08 14:14

前嗅ForeSpider脚本教程:频道脚本使用场景及配置关键词搜索

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本的应用场景以及脚本配置关键词搜索的实战教程。具体内容如下:   一.频道脚本使用场景   当需要手动创建采集源列表,或者完全使用脚本采集数据时,在“频道脚本”处,你可能用到的类为extractor 、result。 你可以定义类的对象来使用其成员方法,也可以使用EXTRACT、RESULT两个全局对象。
qianxiu 评论(0) 有291人浏览 2019-04-04 09:43

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics