/*
* import java.io.BufferedReader;
* import java.io.File;
* import java.io.FileReader;
* import java.io.IOException;
* import java.util.regex.Matcher;
* import java.util.regex.Pattern;
*/
import java.net.*;
import java.io.*;
import java.util.regex.*;
public class DataSpider {
public static void main(String[] args) throws IOException {
String s;
int i = 0;
//网页地址
URL url = new URL(
"http://money.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/600006.phtml");
//创建输入流
BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));
//创建输出文档
FileOutputStream fos = new FileOutputStream("D:\\XiAoOMAn\\GuPiao.txt");
//创建输出流
OutputStreamWriter ows = new OutputStreamWriter(fos);
//匹配需要获取的数据的列名
Pattern q = Pattern.compile("((?<=g>)(\\w*?)).*?(?=(</strong>))");
//匹配数据
Pattern p = Pattern.compile("((?<=date=)(\\w*?)).*?(?=('>))|((?<=center\">)(\\d{1,7}?)).*?(?=(</div>))");
String str = null;
//获取源文件内容 匹配 输出
while ((str = br.readLine()) != null) {
// Matcher b = q.matcher(str);
//列名
Matcher n = q.matcher(str);
//数据
Matcher m = p.matcher(str);
//提取 列名
while (n.find()) {
//形式转换 成 String
s = String.valueOf(n.group());
//输出到文本文档
ows.write(s + " ");
System.out.printf("%-44s", n.group());
}
//提取 数据
while (m.find()) {
if (i == 0){
System.out.println();
ows.write("\r\n");
}
i++;
s = String.valueOf(m.group());
ows.write(s + " ");
System.out.printf("%-22s", m.group());
//每输出完一行 回车
if (i % 7 == 0)
{
System.out.println();
ows.write("\r\n");
}
}
}
ows.close();
fos.close();
br.close();
br.close();
}
}
分享到:
相关推荐
基于PowerBuilder 的网页数据抓取
网页数据抓取的专业实习报告,图文并茂各种详细
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
我测试了,好使的。 android获取数据,这个网页可以是aspx,也可以是php。简单的实现少量数据传递。手机获取网页数据,adroid获取C#页面数据传递也是都可以。
用C#开发,需要.net2.0环境运行; 支持与sql server匹配抓取; 支持结果保存到txt,sql; 如果你会javascript可自己编辑提取内容,不会可与我联系帮你写分析数据提取脚本.
刚转C#时写的网页数据抓取,调试时请将代理设置好,或设置成不使用代理,好再调试
这是一个获取json网页数据的java实例
自动抓取Salseforce.com页面信息到本地数据库,采用Delphi2010,可以进行不同页面数据间自动复制填写,采用IHTMLDocument2,提供关键代码
Java抓取网页数据的两种方法:(1)抓取原网页 (2)抓取网页JS返回数据
是一个开放源码网页数据抓取工具,比如网上有很多数据不想手动去记录,可以借助此工具,更改想抓取的网址及规则,获取想要的数据。
C# 采值数据 获取指定网页的值 远程采值数据 文件
python中tushare包抓取股票实时数据。有美股。
如标题
抓取动态网页的数据,然后将其导入数据库文件中
VBA提取网页数据的四种方法,可以应用于excel中vba编程用于从网络自动提取数据。
使用jsoup 抓取虾米网站的歌曲数据,包括专辑图片 ,歌词,歌曲路径等信息
五、“获取抓取页面打包”是先前抓取的网页以及图片打包 六、项目DOWNLOADS中分HTML、IMAGES是保存抓取网页的信息 系统问题: 系统对网速要求很高,因为下载图片是多线程。 B/S模式程序响应可能超时而影响系统正常...
抓取A股票每日数据,主要为一些关键数据,同时封装抓取方法,方便扩展系统获取个人关注的数据。 二:股票指标计算 基于talib、pandas 计算指标,计算高效准确。调整个别指标公式,确保结果和同花顺、通信达结果一致
利用EXCEL表实时获取股市数据,利用了宏vba,入门级
使用java+jsoup进行网页数据的抓取,提取自己想要的数据