【转自】
http://hi.baidu.com/71site/item/bada63752cab5544ee1e5306
文件下载原理详解1 http协议
最近研究了一下关于文件下载的相关内容,觉得还是写些东西记下来比较好。起初只是想研究研究,但后来发现写个可重用性比较高的模块还是很有必要的,我想这也是大多数开发人员的习惯吧。
对于HTTP协议,向服务器请求某个文件时,只要发送类似如下的请求即可:
GET /Path/FileName HTTP/1.0
Host: www.server.com:80
Accept: */*
User-Agent: GeneralDownloadApplication
Connection: close
每行用一个“回车换行”分隔,末尾再追加一个“回车换行”作为整个请求的结束。
第一行中的GET是HTTP协议支持的方法之一,方法名是大小写敏感的,HTTP协议还支持OPTIONS、HAED、POST、PUT、DELETE、TRACE、CONNECT等方法,而GET和HEAD这两个方法通常被认为是“安全的”,也就是说任何实现了HTTP协议的服务器程序都会实现这两个方法。对于文件下载功能,GET足矣。GET后面是一个空格,其后紧跟的是要下载的文件从WEB服务器根开始的绝对路径。该路径后又有一个空格,然后是协议名称及协议版本。
除第一行以外,其余行都是HTTP头的字段部分。Host字段表示主机名和端口号,如果端口号是默认的80则可以不写。Accept字段中的*/*表示接收任何类型的数据。User-Agent表示用户代理,这个字段可有可无,但强烈建议加上,因为它是服务器统计、追踪以及识别客户端的依据。Connection字段中的close表示使用非持久连接。
关于HTTP协议更多的细节可以参考RFC2616(HTTP 1.1)。因为我只是想通过HTTP协议实现文件下载,所以也只看了一部分,并没有看全。
如果服务器成功收到该请求,并且没有出现任何错误,则会返回类似下面的数据:
HTTP/1.0 200 OK
Content-Length: 13057672
Content-Type: application/octet-stream
Last-Modified: Wed, 10 Oct 2005 00:56:34 GMT
Accept-Ranges: bytes
ETag: "2f38a6cac7cec51:160c"
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
Date: Wed, 16 Nov 2005 01:57:54 GMT
Connection: close
不用逐一解释,很多东西一看几乎就明白了,只说我们大家都关心内容吧。
第一行是协议名称及版本号,空格后面会有一个三位数的数字,是HTTP协议的响应状态码,200表示成功,OK是对状态码的简短文字描述。状态码共有5类:1xx属于通知类;2xx属于成功类;3xx属于重定向类;4xx属于客户端错误类;5xx属于服务端错误类。对于状态码,相信大家对404应该很熟悉,如果向一个服务器请求一个不存在的文件,就会得到该错误,通常浏览器也会显示类似“HTTP 404 - 未找到文件”这样的错误。Content-Length字段是一个比较重要的字段,它标明了服务器返回数据的长度,这个长度是不包含HTTP头长度的。换句话说,我们的请求中并没有Range字段(后面会说到),表示我们请求的是整个文件,所以Content-Length就是整个文件的大小。其余各字段是一些关于文件和服务器的属性信息。
这段返回数据同样是以最后一行的结束标志(回车换行)和一个额外的回车换行作为结束,即“\r\n\r\n”。而“\r\n\r\n”后面紧接的就是文件的内容了,这样我们就可以找到“\r\n\r\n”,并从它后面的第一个字节开始,源源不断的读取,再写到文件中了。
以上就是通过HTTP协议实现文件下载的全过程。但还不能实现断点续传,而实际上断点续传的实现非常简单,只要在请求中加一个Range字段就可以了。
假如一个文件有1000个字节,那么其范围就是0-999,则:
Range: bytes=500- 表示读取该文件的500-999字节,共500字节。
Range: bytes=500-599 表示读取该文件的500-599字节,共100字节。
Range还有其它几种写法,但上面这两种是最常用的,对于断点续传也足矣了。如果HTTP请求中包含Range字段,那么服务器会返回206(Partial Content),同时HTTP头中也会有一个相应的Content-Range字段,类似下面的格式:
Content-Range: bytes 500-999/1000
Content-Range字段说明服务器返回了文件的某个范围及文件的总长度。这时Content-Length字段就不是整个文件的大小了,而是对应文件这个范围的字节数,这一点一定要注意。
一切好像基本上没有什么问题了,本来我也是这么认为的,但事实并非如此。如果我们请求的文件的URL是类似http://www.server.com/filename.exe这样的文件,则不会有问题。但是很多软件下载网站的文件下载链接都是通过程序重定向的,比如pchome的ACDSee的HTTP下载地址是:
http://download.pchome.net/php/tdownload2.php?sid=5547&url=/multimedia/viewer/acdc31sr1b051007.exe&svr=1&typ=0
这种地址并没有直接标识文件的位置,而是通过程序进行了重定向。如果向服务器请求这样的URL,服务器就会返回302(Moved Temporarily),意思就是需要重定向,同时在HTTP头中会包含一个Location字段,Location字段的值就是重定向后的目的URL。这时就需要断开当前的连接,而向这个重定向后的服务器发请求。
好了,原理基本上就是这些了。其实装个Sniffer好好分析一下,很容易就可以分析出来的。不过NetAnts也帮了我一些忙,它的文件下载日志对开发人员还是很有帮助的。
分享到:
相关推荐
INTEL Pcie 转千兆网 I210IT+H5020NL+RJ45 AD设计硬件原理图库+PCB封装库文件,PcbLib+SchLib格式,Altium Designer原理图库+PCB封装库文件,已在项目中验证使用,可作为你产品设计的参考也可以直接应用到你的项目...
1、基于STM32C8T6的自动量程转换数字电压表原理图和PCB文件,使用内置ADC测量电压; 2、功能指标: 1.量程:测量范围为直流电压0~200V,分为200mV,2V,20V,200V共4挡。 2.位数:3位半(或12位ADC)。 3.精确度:...
AC220V转DC(12V15W )电源板AD设计硬件原理图+PCB文件,2层板设计,大小为100*55mm, ALTIUM设计的原理图+PCB文件,可以做为你的学习设计参考。 主要器件型号如下: Library Component Count : 24 Name Description -...
CP2102 USB转串口接口板 ad设计硬件原理图+PCB文件, ad 设计的工程文件,包括原理图及PCB印制板图,可以用Altium Designer(AD)软件打开或修改,可作为你产品设计的参考。
CH340G 3.3V USB转串口 ALTIUM AD设计原理图+PCB+3D封装库文件(可直接打板),采用2层板设计,板子大小为31x20mm,单面布局双面布线。 Altium Designer 设计的工程文件,包括完整的原理图PCB文件,可以用Altium(AD)...
USB转TTL串口模块硬件原理图及PCB文件,candence软件设计。
全志A20核心板配套开发底板Cadence原理图+ Pads2005格式PCB文件+转换后的AD格式原理图PCB文件: A20_DVK1_BASE_V16_Altium_Designer15.PcbDoc A20_DVK1_BASE_V16_BOM_20151015.xlsx A20_DVK1_BASE_V16_Gerber制板...
Cadence OrCAD Capture CIS原理图库PCB库文件(超全阻容电感),可以直接用于你的电路设计中,页可以做为你的学习设计参考。
下载“Protel2PCBTranslators.rar”压缩文件,解压缩到任意目录。 一、原理图转换工具“schcvt.exe”。 该软件可以将Protel格式的原理图和PADS格式的原理图相互转换。但是从软件的界面上推测,好像是可以在Protel、...
基于CH340C设计的USB TYPE-C接口转TTL串口(下载器)AD硬件原理图}+PCB+封装库文件,2层板 设计,可以做为你的学习设计参考。
开关电源设计硬件资料(包括20个原理图PCB设计实例工程文件),可以做为你的设计参考,详细资料如下: 1.5V~30V 3A可调式开关电源电路原理图 PCB资料.rar 12V-5V开关电源电路及设计分析(含仿真 12V、15W开关电源设计...
SP3232芯片 TTL转RS232模块 Cadence16.3设计硬件原理图+PCB文件,2层板式设计,包括Cadence Allegro设计的原理图和PCB文件,可以做为你的学习设计参考。
基于SP3232E芯片设计的UART TTL转RS232串口板板cadence原理图+pads PCB图+bom文件,实现2路TTL与232电平之间转换。DB9口可以设置主从模式。 IC IC,232-TTL转换,SP3232EEA,SSOP16 ssop16_232 SP3232E 1 U8 接插件 ...
CH340G USB3.0接口 USB转UART ALTIUM设计硬件原理图+PCB+封装库文件,ALTIUM AD09设计的工程文件,USB接口为3.1 USB TYPE C接口,2层板。
CH340 USB 转串口 AD设计硬件原理图+PCB文件, ad 设计的工程文件,包括原理图及PCB印制板图,可以用Altium Designer(AD)软件打开或修改,可作为你产品设计的参考。
Realtek RTL8376手册,Cadence平台设计的硬件原理图PCB文件+转ALTIUM的原理图文件
STM32F103C8T6+MPU6050评估板AD设计硬件原理图+PCB文件,2层板设计,大小为30x53mm,Altium Designer 设计的工程文件,包括完整的原理图及PCB文件,可以用Altium(AD)软件打开或修改,可作为你产品设计的参考。...
CH340G USB3.1接口USB转UART模块 ALTIUM设计硬件原理图+PCB+封装库文件,ALTIUM AD09设计的工程文件,USB接口为3.1 USB TYPE C接口,2层板,包括完整的原理图,PCB,2D3D封装库文件,原理图和PCB文件完全对应无差错...
DB9接口RS232转TTL电平单片机烧写下载器AD设计原理图+PCB文件,芯片采用MAX232,2层板设计,包括完整的原理图和PCB文件吗,可做你的学习设计参考。
RTL8111H-CG PCIE X1转千兆网芯片AD原理图库+PCB封装库,包括ALTIUM设计的原理图库和PCB库文件,均已在项目中验证使用,可以直接用于你的项目设计中。