论坛首页 编程语言技术论坛

python爬取城市公交站点信息

浏览 260 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2021-12-09  
城市公交、地铁是大城市基本的公共交通,我们研究这些数据能够挖掘城市的交通结构、路网规划、公交选址等。可是这些数据比较难获取,因为掌握在特定的部门手里的。那我们要获取这些数据可以通过互联网地图上提供的信息,包含公交、地铁等数据,能够经过Python爬虫采集。闲言少叙,接下来将详细介绍如何使用Python爬虫爬取城市公交数据。首先,我们要爬取研究城市的全部公交和地铁线路名称,即XX路,这些数据我们可以通过图吧https://www.mapbar.com/精准的获取到数据,这个网站提供了按数字和字母划分类别的公交线路名称。然后我们使用Python写个简单的爬虫就能采集数据了,主要爬取代码如下:#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text
示例里面提供了代理的使用方式,有亿牛云提供https://www.16yun.cn/help/ss_demo/#1python,有需要的可以去试试。关于一个城市的公交数据信息的获取就分享到这里,希望对小伙伴的爬虫学习有帮助的价值。​若有收获,就点个赞吧
论坛首页 编程语言技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics