`
XiAoOMAn07
  • 浏览: 74773 次
  • 性别: Icon_minigender_1
  • 来自: 温州
社区版块
存档分类
最新评论

网页数据抓取 获取股票数据

阅读更多
/*
 * import java.io.BufferedReader;
 * import java.io.File;
 * import java.io.FileReader;
 * import java.io.IOException;
 * import java.util.regex.Matcher;
 * import java.util.regex.Pattern;
*/
import java.net.*;
import java.io.*;
import java.util.regex.*;
public class DataSpider {

	public static void main(String[] args) throws IOException {

		
		String s;
		int i = 0;
		
		//网页地址
		URL url = new URL(
				"http://money.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/600006.phtml");
		//创建输入流
		BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));
		//创建输出文档
		FileOutputStream fos = new FileOutputStream("D:\\XiAoOMAn\\GuPiao.txt");
		//创建输出流
		OutputStreamWriter ows = new OutputStreamWriter(fos);
		
		//匹配需要获取的数据的列名
		Pattern q = Pattern.compile("((?<=g>)(\\w*?)).*?(?=(</strong>))");
		//匹配数据
		Pattern p = Pattern.compile("((?<=date=)(\\w*?)).*?(?=('>))|((?<=center\">)(\\d{1,7}?)).*?(?=(</div>))");
		String str = null;
		//获取源文件内容 匹配 输出
		while ((str = br.readLine()) != null) {
			// Matcher b = q.matcher(str);
			//列名
			Matcher n = q.matcher(str);
			//数据
			Matcher m = p.matcher(str);

			//提取 列名
			while (n.find()) {
				//形式转换 成 String
				s = String.valueOf(n.group());
				//输出到文本文档
				ows.write(s + "		 ");
				System.out.printf("%-44s", n.group());
				
			}
			//提取 数据
			while (m.find()) {
				if (i == 0){
					System.out.println();
					ows.write("\r\n");
				}
				i++;
				s = String.valueOf(m.group());
				ows.write(s + "	   ");
				System.out.printf("%-22s", m.group());
				//每输出完一行 回车
				if (i % 7 == 0)
				{
					System.out.println();
					ows.write("\r\n");
				}
			}

		}
		ows.close();
		fos.close();
		br.close();
		br.close();

	}

}
分享到:
评论
3 楼 xxxyyyfff0623 2010-07-22  
谢谢你的资源!但要是有解释就更好了。而且字符串也可以完成吧!
2 楼 XiAoOMAn07 2009-09-26  
teaofnit 写道
DateSpider ?
or DataSpider


DataSpider....
1 楼 teaofnit 2009-09-25  
DateSpider ?
or DataSpider

相关推荐

Global site tag (gtag.js) - Google Analytics