`
minbing
  • 浏览: 27685 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

python 解析搜索引擎关键词

阅读更多

需求是:为了知道搜索引擎通过哪些关键词到达站点,需要对url进行反编码,google了一下(怕没机会用了),看到可可熊的链接:http://cocobear.info/blog/2008/08/11/tool-of-python-url-encode/,还有其他不错链接,在此表示感谢。

借鉴了转码方法,主要针对国内几个主流搜索引擎,代码如下,留作纪念:

 

import urllib
import sys,getopt,re
    
searchEngines = {'http://www.google.com': 'q=',
                 'http://www.google.cn': 'q=',
                 'http://www.baidu.com': 'wd=',
                 'http://www.soso.com': 'w=',
                 'http://www.youdao.com': 'q='}
    
def getQueryString(url):
    queryStr = ''
    for k, v in searchEngines.items():
        index = url.find(k)
        if index == 0:
            print k
            startIndex = url.find(v)
            print startIndex
            if startIndex > 0:
                endIndex = url.find('&', startIndex)
                print endIndex
                if endIndex == -1:
                    queryStr = url[startIndex+len(v):]
                else:
                    queryStr = url[startIndex+len(v):endIndex]
    return queryStr
 
def url2read(s):

    s = urllib.unquote(s)
    try: 
            print '11111111111111\n'
            s = s.decode('utf-8')
    except UnicodeDecodeError:
            print '2222222222222\n'
            s = s.decode('gbk')

if __name__ == "__main__":
#    url2read('%C0%F6%BD%AD')
#    url2read('%E4%B8%BD%E6%B1%9F')
    s1 = getQueryString(r'http://www.google.com/search?hl=en&source=hp&q=%E4%B8%BD%E6%B1%9F&aq=f&oq=&aqi=');
    s2 = getQueryString(r'http://www.baidu.com/s?wd=%C0%F6%BD%AD')
    url2read(s1)
    url2read(s2)
分享到:
评论

相关推荐

    小红书关键词笔记搜索Python 爬虫 (csv保存).zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    一个Python模块用于抓取几个搜索引擎bd,gg,soso

    一个Python模块用于抓取几个搜索引擎bd,gg,soso 实现一个Python模块用于抓取几个搜索引擎,可以按照以下概念进行设计: 1. **搜索引擎选择:** 选择几个目标搜索引擎,如Google、Bing、Baidu等。 2. **构建搜索...

    python项目信息安全领域中语义搜索引擎的设计.zip

    该项目是一个专注于信息安全领域中语义搜索引擎的设计,使用Python语言进行开发。 1. **系统设计**:项目旨在创建一个能够理解和处理自然语言查询的搜索引擎,特别关注于信息安全领域的内容检索和数据保护。 2. **...

    一个简单的python爬虫实践,爬取包含关键词的新浪微博.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    基于Python的网络爬虫的设计与实现.doc

    与传统搜索引擎不同 ,网络爬虫只爬取想要获得的特定类型的信息,进而提高搜索引擎的效率。 二、Python语言 Python语言是一种比较常用的开发网址工具,这种语言自身具有非常强大功能 。近些年,随着互联网行业的快速...

    Python爬虫实现2003年~2022年三万+个公司年报的智能抓取与关键词次数统计.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    python项目基于搜索的目标站点内容监测系统.zip

    基于搜索的目标站点内容监测系统是一个使用Python开发的项目,旨在通过搜索引擎和网络爬虫技术实时监控指定网站的内容变化。这个系统能够定期检查目标网页的更新情况,当发现内容有新增或变动时,系统可以立即通知...

    1688爬虫,通过搜索关键词采用selenium爬取指定页数的商品信息.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    基于python的企业舆情监控系统,包含requests爬虫xpath解析. mysql存储,elasticsearch搜索

    介绍 企业舆情监控系统是一个用于实时监测和分析企业相关舆情的系统。 企业舆情监控系统能够帮助企业实时了解和分析与其相关的舆情信息,...Elasticsearch:系统使用Elasticsearch作为搜索和分析引擎,支持快速的全文搜

    数据科学基础大作业.zip

    实现的技术包括利用python爬虫,爬取关键词搜索的微博正文,特定微博下的评论;预处理微博文本;手写textRank;聚类,kmeans,DBSCAN,层次聚类;情感词典情感分析;pyecharts可视化绘图 爬虫(Web Crawler)是一种...

    一个爬虫程序,按关键词分别爬一个搜索页面,爬列表,将关键内容分别存入各自关键词的txt页面中.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    基于 Selenium 的知乎关键词爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    可自定义关键词获取一定时间范围内几乎所有数据的微博爬虫项目.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    淘宝爬虫,可获得某关键词的所有商品名称、店铺、销量、评论数、图片、优惠、出货地、原价等等.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    新浪爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    图片爬虫工具.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    Tcl_TK编程权威指南pdf

    第22章 tk实例解析 execlog example browser tcl shell 第23章 打包摆放布局管理器(pack) 朝一侧摆放 水平与垂直难叠 空腔模型( cavity model) 打包摆放空间(packing space)与显w空间(display ...

Global site tag (gtag.js) - Google Analytics