通过爬虫获取失踪儿童信息

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Windows

浏览 383 次

锁定老帖子主题：通过爬虫获取失踪儿童信息精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
小taomi_77 等级: 性别: 文章: 51 积分: 660 来自: 成都	发表时间：2021-07-13 相关推荐: 国内实时丢失儿童地图可视化 Python爬虫小实践：寻找失踪人口，爬取失踪儿童信息并写成csv文件，方便存入数据库 Python爬虫小实践：寻找失踪人口，爬取失踪儿童信息并写成csv文件，方便存入数据库... python爬虫——正则表达式 Python爬虫实战 \| (21) Scrapy+Selenium爬取新浪滚动新闻更多相关推荐 Python 一个人，一辆摩托车，车后插着一面寻子旗帜，很多人通过电影《失孤》认识了郭刚堂。二十多年来，他一直在锲而不舍地做一件事——寻找被拐走的儿子郭新振。7月13日，公安部在北京召开发布会，介绍电影《失孤》原型拐卖案件侦破情况：电影中的被拐儿童原型郭新振已被公安机关找到，犯罪嫌疑人被警方抓获。看了整个事件的来龙去脉真的很感动，父母的爱真的很伟大。关于失踪儿童在我们国家依旧是一个很值得关注的群体，那么今天我们就通过爬虫来获取我们国家失踪儿童的数据，希望可以更好的帮助那些失踪的孩子早点回到父母的身边。首先我们使用的是Selenium 1、获取http://bbs.baobeihuijia.com/forum-191-1.html这个版块上的所有分页页面链接 2、设置代理，代理我们可以通过www.16yun.cn获取 3代码信息如下： from selenium import webdriver import string import zipfile # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "16OKTFDX" proxyPass = "940952" def create_proxy_auth_extension(proxy_host, proxy_port, proxy_username, proxy_password, scheme='http', plugin_path=None): if plugin_path is None: plugin_path = r'D:/{}_{}@t.16yun.zip'.format(proxy_username, proxy_password) manifest_json = """ { "version": "1.0.0", "manifest_version": 2, "name": "16YUN Proxy", "permissions": [ "proxy", "tabs", "unlimitedStorage", "storage", "", "webRequest", "webRequestBlocking" ], "background": { "scripts": ["background.js"] }, "minimum_chrome_version":"22.0.0" } """ background_js = string.Template( """ var config = { mode: "fixed_servers", rules: { singleProxy: { scheme: "${scheme}", host: "${host}", port: parseInt(${port}) }, bypassList: ["foobar.com"] } }; chrome.proxy.settings.set({value: config, scope: "regular"}, function() {}); function callbackFn(details) { return { authCredentials: { username: "${username}", password: "${password}" } }; } chrome.webRequest.onAuthRequired.addListener( callbackFn, {urls: [""]}, ['blocking'] ); """ ).substitute( host=proxy_host, port=proxy_port, username=proxy_username, password=proxy_password, scheme=scheme, ) with zipfile.ZipFile(plugin_path, 'w') as zp: zp.writestr("manifest.json", manifest_json) zp.writestr("background.js", background_js) return plugin_path proxy_auth_plugin_path = create_proxy_auth_extension( proxy_host=proxyHost, proxy_port=proxyPort, proxy_username=proxyUser, proxy_password=proxyPass) option = webdriver.ChromeOptions() option.add_argument("--start-maximized") # 如报错 chrome-extensions # option.add_argument("--disable-extensions") option.add_extension(proxy_auth_plugin_path) # 关闭webdriver的一些标志 # option.add_experimental_option('excludeSwitches', ['enable-automation']) driver = webdriver.Chrome(chrome_options=option) # 修改webdriver get属性 # script = ''' # Object.defineProperty(navigator, 'webdriver', { # get: () => undefined # }) # ''' # driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": script}) driver.get("http://bbs.baobeihuijia.com/forum-191-1.html") 贴出代码的初衷是供大家学习爬虫，大家只是研究下网络框架即可，关于更多的爬虫知识大家可以积极交流学习。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 编程语言技术版

跳转论坛: