`

Python网络爬虫之用有道翻译

 
阅读更多

2016.12.27

 

在学习Python之前就闻Python在爬虫方面有着很好作用。下面来说说什么是爬虫?

网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站,样子像一只大蜘蛛。

 

1.JSON是什么?

JSON指的是JavaScript对象表示法(JavaScript Object Notation)

JSON是存储和交换文本信息的语法,类似XML

JJSON比xml更小,更快,更易理解。

JSON是轻量级的文本数据交换格式

JJSON独立于语言。

JSON具有自我描述性,更易理解。

2.两种常见的HTTP方法是:GET和POST

什么是HTTP?

超文本传输协议(HTTP)的设计目的是保证客户端与服务器之间的通信,HTTP的工作方式是客户端与服务器之间的请求-应答协议。

GET-从指定的资源请求数据

POST-向指定的资源提交要被处理的数据。

下面是一段关于Python的代码,结果是能够翻译你输入的类容。

import urllib.request
import urllib.parse
import json

content = input("请输入需要翻译的内容:")

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=http://www.youdao.com/"
data = {}
data['type'] = 'AUTO'
data['i'] = content
data['doctype'] = 'json'
data['xmlVersion'] = '1.6'
data['keyfrom'] = 'fanyi.web'
data['ue'] = 'UTF-8'
data['typoResult'] = 'true'
data = urllib.parse.urlencode(data).encode('utf-8')

response = urllib.request.urlopen(url, data)
html = response.read().decode('utf-8')
target = json.loads(html)

print("翻译结果:%s" % (target['translateResult'][0][0]['tgt']))

 获取状态码的两种方式:

第一种是用urllib模块。下面是咧示代码:

import request.urllib
status=request.urllib.urlopen("http://www.jb51.net").get_code
print status

 第二种是用requests模块,下面是列示代码:

import requests
code=requests.get("http://www.jb51.net").status_code
print(code)

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics