`
小taomi_77
  • 浏览: 40287 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

又是一年甜咸粽子大战

阅读更多
临近端午节,粽子销售进入高峰期。除蛋黄粽、鲜肉粽、豆沙粽等经典口味,今年的粽子届迎来鲍鱼等海鲜及松露等蘑菇的“大举入侵”。2022端午消费趋势数据显示,5月中旬至下旬,粽子销量环比增长超440%,咸粽占据主导优势,咸粽/甜粽的销售比例约为4:1。
现在真的是万物都“卷”,端午节不仅是粽子口味的战争,还是各个品牌之间的战争,毕竟送礼是我们的一大传统,那选择什么牌子的粽子呢?选择什么口味的粽子呢?选择什么价格区间呢?今天爬取了京东上面的 “粽子数据” 进行分析,看看有啥发现吧。本文就从数据爬取、数据清洗、数据可视化,这三个方面入手,教你简单完成一个小型的数据分析项目,让你对爬虫知识能够有一个综合的运用。
数据来源:https://www.jd.com/
基于京东网站,我们搜索网站“粽子”数据,大概有100页,所以我们获取的数据量还是很大的,最重要的一点是像京东这样的网站反爬机制是非常严的,所以做好反爬措施是非常重要的,特别是爬虫代理IP的使用和选择,这里推荐亿牛云,专业提供高质量爬虫代理IP的厂商。本文中分享的也是使用他们家代理的实践。示例如下:
#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text
综合数据分析,粽子店铺销量Top10其实与商品相似,五芳斋官方旗舰店和真真老老旗舰店占据首位,遥遥领先。看来五芳斋在大家眼里还是很有人气的。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics