抓取网页内容-文字
需要三个类:WebRequest、WebResponse、StreamReader。
WebRequest、WebResponse的名称空间是:
System.Net
StreamReader的名称空间是:
System.IO
核心代码
WebRequest request = WebRequest.Create("http://www.cftea.com/");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));
- WebRequest 类的 Create 为静态方法,参数为要抓取的网页的网址;
- Encoding 指定编码,Encoding 中有属性 ASCII、UTF32、UTF8 等全球通用的编码,但没有 gb2312 这个编码属性,所以我们使用 GetEncoding 获得 gb2312 编码。
示例
<%@ Page Language="C#" %>
<%@ Import Namespace="System.Net" %>
<%@ Import Namespace="System.IO" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
void Page_Load(object sender, EventArgs e)
{
try
{
WebRequest request = WebRequest.Create("http://www.cftea.com/");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));
tb.Text = reader.ReadToEnd();
reader.Close();
reader.Dispose();
response.Close();
}
catch (Exception ex)
{
tb.Text = ex.Message;
}
}
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
本文不仅适用于图片,同样实用于其它二进制文件。
需要四个类:WebRequest、WebResponse、Stream、FileStream。
WebRequest、WebResponse的名称空间是:
System.Net
Stream、FileStream的名称空间是:
System.IO
核心代码
WebRequest request = WebRequest.Create("http://www.cftea.com/images/logo.gif");
WebResponse response = request.GetResponse();
Stream reader = response.GetResponseStream();
FileStream writer = new FileStream("D:\\logo.gif", FileMode.OpenOrCreate, FileAccess.Write);
byte[] buff = new byte[512];
int c = 0; //实际读取的字节数
while ((c=reader.Read(buff, 0, buff.Length)) > 0)
{
writer.Write(buff, 0, c);
}
writer.Close();
注意类 Stream,不是 StreamReader。
示例
<%@ Page Language="C#" %>
<%@ Import Namespace="System.Net" %>
<%@ Import Namespace="System.IO" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<script runat="server">
void Page_Load(object sender, EventArgs e)
{
try
{
WebRequest request = WebRequest.Create("http://www.cftea.com/images/logo.gif");
WebResponse response = request.GetResponse();
Stream reader = response.GetResponseStream();
FileStream writer = new FileStream("D:\\logo.gif", FileMode.OpenOrCreate, FileAccess.Write);
byte[] buff = new byte[512];
int c = 0; //实际读取的字节数
while ((c=reader.Read(buff, 0, buff.Length)) > 0)
{
writer.Write(buff, 0, c);
}
writer.Close();
writer.Dispose();
reader.Close();
reader.Dispose();
response.Close();
tb.Text = "保存成功!";
}
catch (Exception ex)
{
tb.Text = ex.Message;
}
}
</script>
<html xmlns="http://www.w3.org/1999/xhtml" >
<head runat="server">
<title>抓取网页图片并保存 - 千一网络</title>
</head>
<body>
<form id="form1" runat="server">
<div>
<asp:TextBox ID="tb" runat="server" Width="500" Height="300" TextMode="multiLine"></asp:TextBox>
</div>
</form>
</body>
</html>
---------------------------------------------------------------------------------------------------------------------------------------------------------------
抓取网页内容-Post 数据
在抓取网页时,有时候,需要将某些数据通过 Post 的方式发送到服务器,将以下代码添加在网页抓取的程序中,以实现将用户名和密码 Post 到服务器:
string data =
"userName=admin&passwd=admin888";
byte[] requestBuffer = System.Text.Encoding.GetEncoding("gb2312").GetBytes(data);
request.Method = "POST";
request.ContentType = "application/x-www-form-urlencoded";
request.ContentLength = requestBuffer.Length;
using (Stream requestStream = request.GetRequestStream())
{
requestStream.Write(requestBuffer, 0, requestBuffer.Length);
requestStream.Close();
}
WebResponse response = request.GetResponse();
using (StreamReader reader =
new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312")))
{
string str = reader.ReadToEnd();
reader.Close();
}
以上是以编码 gb2312 为例。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
抓取网页内容-保持登录状态
利用 Post 数据成功登录服务器应用系统后,就可以抓取需要登录的页面了,那么我们就可能需要在多个 Request 间保持登录状态。
首先,我们要使用 HttpWebRequest,而不是 WebRequest。
与 WebRequest 相比,变化的代码是:
HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
注意:HttpWebRequest.Create 返回的类型仍是 WebRequest,所以要转化一下。
其次,使用 CookieContainer。
System.Net.CookieContainer cc = new System.Net.CookieContainer();
request.CookieContainer = cc;
request2.CookieContainer = cc;
这样 request 和 request2 之间就使用了相同的 Session,如果 request 登录了,那么 request2 也是登录状态。
最后,如何在不同的页面间使用同一个 CookieContainer。
要在不同的页面间使用同一个 CookieContainer,只有把 CookieContainer 加入 Session。
Session.Add("ccc", cc); //存
CookieContainer cc = (CookieContainer)Session["ccc"]; //取
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
把当前会话带到 WebRequest 中
比如说浏览器 B1 去访问服务器端 S1,这会产生一个会话,而服务器端 S2 再用 WebRequest 去访问服务器端 S1,这又会产生一个会话。现在的需求是让 WebRequest 使用浏览器 B1 与 S1 之间的会话,也就是说要让 S1 认为是 B1 在访问 S1,而不是 S2 在访问 S1。
这就要利用 Cookie 了,先在 S1 中取得与 B1 的SessionID 的Cookie,再将这个 Cookie 告诉 S2,S2 再将 Cookie 写在 WebRequest 中。
WebRequest request = WebRequest.Create("url");
request.Headers.Add(HttpRequestHeader.Cookie, "ASPSESSIONIDSCATBTAD=KNNDKCNBONBOOBIHHHHAOKDM;");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
Response.Write(reader.ReadToEnd());
reader.Close();
reader.Dispose();
response.Close();
要说明的是:
- 本文并不是 Cookie 欺骗,因为 SessionID 是 S1 告诉 S2 的,并不是 S2 窃取的,虽然有些古怪,但这可能在一些特定的应用系统中会有用。
- S1必须要向 B1 写Session,这样 SessionID 才会保存到 Cookie 中,并且 SessionID 才会保持不变。
- 在 ASP.NET 中取 Cookie 用 Request.Cookies,本文假设 Cookie 已经取出来。
- 不同的服务器端语言,SessionID 在 Cookie 中上名称并不一样,本文是 ASP 的 SessionID。
- S1 可能不仅仅依靠 SessionID 来判断当前登录,它可能还会辅助于 Referer、User-Agent 等,这取决于 S1 端程序的设计。
- 其实本文算是本连载中“保持登录状态”的另一种方法。
分享到:
相关推荐
asp.net数据采集 生成静态页面Demo asp.net数据采集 asp.net生成静态页面 asp.net
asp.net 网页爬虫 网页 爬虫 定时 抓取 网页
简单使用bootstrap制作ASP.NET的登录页面,文章见http://blog.csdn.net/dhywjx/article/details/79507142
ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP.NET入门经典ASP...
网页抓取信息ASP.NeT
最近在做项目时,要求抓取天气预报信息保存到数据库。在网上找到一个webservice服务。虽然有免费用,但是受到了限制,只好考虑自己做了...才用webRequest对象去官网页面抓取。解析,保存到数据库。后面就可以去展现了。
asp.net 网页抓取技术 实现对别的网页title等的抓取
ASP.NET生成静态页面实现方法ASP.NET生成静态页面实现方法ASP.NET生成静态页面实现方法
又四种从ASP.NET页面将数据导出到excel中的方法
ASP.NET生成静态页面和分页 ASP.NET生成静态页面和分页 ASP.NET生成静态页面和分页 ASP.NET生成静态页面和分页
软件系统模板页面,采用ASP.net模板业,页面美观,不能作为商用。
ASP.NET源码——asp.net生成静态页面的模板引擎.zip
Asp.net数据抓取,根据关键字可以抓取新浪、百度贴吧、搜狗三种网站的信息,若需要抓取其他网站的信息可二次开发,可扩展。
讲座内容: ASP.NET 页面框架是一种可伸缩的编程模型,可以用它在服务器上动态生成网页。ASP.NET 页面框架是 Active Server Pages 的后续产品。在本次讲座中,我们将给大家详细介绍有关ASP.NET页面框架的...
在Visual Studio中创建ASP.NET项目 所有页面要求采用代码后置的编码方式 在项目中添加登录页面login.aspx,效果见下图 实现没有登录重定向到登录页面login.aspx 用户首次登录网站给出用户名和密码的输入...
本章介绍如何创建您的第一个简单的 ASP.NET 页面。 ASP.NET 服务器控件 本章介绍 ASP.NET 服务器控件。 ASP.NET 事件 本章介绍一些 ASP.NET 事件句柄。 ASP.NET Forms ASP.NET WEB 表单 本章介绍 ASP.NET 的 ...
ASP.NET01页面对象模型 ASP.NET01页面对象模型 ASP.NET01页面对象模型 ASP.NET01页面对象模型
这部分内容不需要读者有任何的客户端开发知识,只要在Visual Stuio中轻松拖放即可实现强大的客户端Ajax功能,例如局部页面更新、异步回送、拖放、动画等,非常适合为现有的ASP.NET 2.0应用程序添加少量的Ajax特性,...
解析6种ASP.NET跨页面传值的方法,大家都知道跨页面问题比较麻烦的。这里有六种,总有适合你的。不过跨页面不是跨域哈