抓取开发者头条分享的所有文章

rensanning

浏览: 3514149 次
性别:
来自: 大连

最近访客更多访客>>

blogtester

lliiqiang

film

newer_fisher

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 使用Titanium Mo...
浏览量：37479

: Cordova 3.x入门...
浏览量：604323

: 常用Java开源Libra...
浏览量：678071

: 搭建 CentOS 6 服...
浏览量：87257

: Spring Boot 入...
浏览量：399816

: 基于Spring Secu...
浏览量：69067

: MQTT入门
浏览量：90474

文章分类

社区版块

存档分类

博客分类：

杂七杂八

使用 HttpClient 和 jsoup 抓取开发者头条中分享的所有文章（截止目前15000多条）。

数据：点击下载
代码：点击下载

public class ToutiaoArticles {
	
	public static void main(String[] args) {
		new ToutiaoArticles().fetch();
	}
	
	public void fetch() {
		LocalDate startDate = new LocalDate(2014, 9, 27);
		LocalDate endDate = LocalDate.now();
		File outputFile = new File("D://data.csv");
		String baseUrl = "http://toutiao.io/prev/";
		
		PoolingHttpClientConnectionManager mgr = new PoolingHttpClientConnectionManager();
		mgr.setMaxTotal(5);
		mgr.setDefaultMaxPerRoute(5);
		HttpClient httpClient = HttpClientBuilder.create().setConnectionManager(mgr).build();
		HttpGet httpGet = null;
		
		String date = null;
		String url = null;
		List<Link> linkInfos = null;
		StringBuffer articleInfos = null;
		
		while (startDate.isBefore(endDate) || startDate.isEqual(endDate)) {
			date = startDate.toString("yyyy-MM-dd");
			url = baseUrl + date;
			System.out.println("[URL]-----" + url);
			httpGet = new HttpGet(url);
			try {
				linkInfos = httpClient.execute(httpGet, new PageResponseHandler());
				if (linkInfos != null) {
					articleInfos = new StringBuffer();
					for (int i = 0; i < linkInfos.size(); i++) {
						Link k = linkInfos.get(i);
						String data = date + "," + (i+1) + "," + k.getTitle() + "," + k.getOriginLink() + "," + k.getLink();
						System.out.println(data);
						articleInfos.append(data + "\r\n");
					}
					FileUtils.writeStringToFile(outputFile, articleInfos.toString(), "GBK", true);
				}
			} catch (Exception e) {
				e.printStackTrace();
			} finally {
				httpGet.releaseConnection();
			}
			startDate = startDate.plusDays(1);
		}
	}
	
	class PageResponseHandler implements ResponseHandler<List<Link>> {

		@Override
		public List<Link> handleResponse(HttpResponse response) throws ClientProtocolException, IOException {
			
			HttpEntity entity = response.getEntity();

			if (response.getStatusLine().getStatusCode() >= 300) {
				EntityUtils.consume(entity);
				return null;
			}

			if (entity == null) {
				return null;
			}

			RequestConfig requestConfig = RequestConfig.custom().setRedirectsEnabled(false).build();
			PoolingHttpClientConnectionManager mgr = new PoolingHttpClientConnectionManager();
			mgr.setMaxTotal(5);
			mgr.setDefaultMaxPerRoute(5);
			HttpClient httpClient = HttpClientBuilder.create().setDefaultRequestConfig(requestConfig).setConnectionManager(mgr).build();
			HttpGet httpGet = null;
			HttpResponse httpResponse = null;
			
			List<Link> linkInfos = new ArrayList<Link>();
			Link lk = null;

			String html = EntityUtils.toString(entity);
			
			Document document = Jsoup.parse(html);
			Elements links = document.getElementsByAttributeValue("target", "_blank");
			for (int i = 0; i < links.size(); i++) {
				lk = new Link();
				lk.setLink(links.get(i).attr("href"));
				lk.setTitle(links.get(i).text());
				
				httpGet = new HttpGet(lk.getLink());
				try {
					httpResponse = httpClient.execute(httpGet);
					if (httpResponse.getStatusLine().getStatusCode() == 302) {
						String loc = httpResponse.getLastHeader("Location").getValue();
						loc = loc.replaceAll("hmsr=toutiao.io", "");
						loc = loc.replaceAll("&utm_medium=toutiao.io", "");
						loc = loc.replaceAll("&utm_source=toutiao.io", "");
						lk.setOriginLink(loc);
					}
	
				} catch (Exception e) {
					e.printStackTrace();
				} finally {
					httpGet.releaseConnection();
				}
				
				linkInfos.add(lk);
			}

			return linkInfos;
		}

	}

	class Link {
		private String title;
		private String link;
		private String originLink;
		
		public String getTitle() {
			return title;
		}
		public void setTitle(String title) {
			this.title = title;
		}
		public String getLink() {
			return link;
		}
		public void setLink(String link) {
			this.link = link;
		}
		public String getOriginLink() {
			return originLink;
		}
		public void setOriginLink(String originLink) {
			this.originLink = originLink;
		}
	}
	
}

ToutiaoArticles.zip (3.6 MB)
下载次数: 2

data.rar (651.7 KB)
下载次数: 0

查看图片附件

分享到：

有趣的程序员面试 | CentOS 安装 ELK

2016-07-29 14:57
浏览 1762
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

抓取开发者头条分享的所有文章

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

抓取 开发者头条 分享的所有文章

评论

发表评论

相关推荐

关于代码风格

关于英文缩写

关于Bootstrap主题模板

关于整理归纳

关于远程操作

关于保留字和敏感词

关于开发文档

Excel打开CSV文件乱码的问题

开发Hubot聊天机器人

有趣的程序员面试

EC2(CentOS7) + ShadowSocks

程序员如何不断提高自己？

你所不知道的<html>, <head>, <body>

Apache Cordova 3.x入门 -- 目录结构

Apache Cordova 3.x入门 -- 常用命令

通过yum在CentOS 6中安装Asterisk 12

二维码生成器

碉堡了的简历，膜拜之！

IE 404等错误定制页面

Code Beautify

最近访客更多访客>>

抓取开发者头条分享的所有文章