看英文PDF积累的英文常见短语词组

博客分类：

English

what is more 除此之外 after all毕竟 above all 首先，尤其是 ahead of 在.....之前 all at once 突然，同时/一起 all but 几乎，差一点 all of sudden 突然，出乎意料的 all over 到处 all over again 再来一次，重新 all the same 仍然，照样/照旧 all the time 一直，始终 and so on

2015-11-03 13:31
浏览 1976
评论(1)
分类:非技术

Another app is currently holding the yum lock; waiting for it to exit

博客分类：

linux

yum

昨天用Virtualbox虚拟了2台CentOS,发现默认没有安装vim,所以就准备安装vim,结果我输入如下命令时,出现了如题的异常: yum install vim-X11 vim-common vim-enhanced vim-minimal 结果提示异常: 意思是yum当前正被其他程序进程占用了,解决办法就是杀掉进程了,输入下面的命令即可: rm -f /var/run/yum.pid 然后再次输入vim安装命令即可, 你会看到,已经在自动下载vim依赖的其他rpm啦,耐心等待即可!中途会出现几个需要你确认的提示,如: Is this ...

2015-11-02 12:33
浏览 2595
评论(0)
分类:编程语言

修改系统IP(CentOS)

博客分类：

linux

CentOS IP Linux

这里我使用的是NAT网络模式,如图: 然后如图操作: 修改之前如图: ifcfg-eth0修改之后如图: 然后修改/etc/sysconfig下的network文件,如图: 敲vi network,然后如图编辑: 然后esc，:wq!保存，你懂的。然后service n ...

2015-11-01 19:07
浏览 1684
评论(0)
分类:编程语言

新浪微博模拟登录(Java)

博客分类：

spider

spider login

使用HttpClient模拟新浪微博登录，贴在这里做个备忘，也希望能帮助到有这方面需求的童鞋们，代码如下： package com.yida.spider4j.crawler.test.sina; import java.io.UnsupportedEncodingException; import java.math.BigInteger; import java.net ...

2015-10-29 20:07
浏览 5579
评论(2)
分类:编程语言

音悦台800多万MV视频抓取

博客分类：

spider

spider yinyuetai

闲的蛋疼,抓下音悦台的MV玩玩,昨晚研究到凌晨1点,现把代码分享与此,以作备忘,如果有涉及侵权,请音悦台通知我,我马上删除代码,哈哈!!! //因为我发现音悦台的MV ID都是7位数字 int max = 9999999; for(int i=0; i < max; i++) { String videoId = i + ""; String html = HttpClientUtils.getHTML("http://www.yinyuetai.com/insite/get-video-in ...

2015-10-20 09:37
浏览 7961
评论(3)
分类:编程语言

W3C Document 与Jsoup Document之间对象互转

博客分类：

java base

Document W3C Jsoup

1. org.w3c.dom.Document对象转成org.jsoup.nodes.Document对象: String fragment = "<data><employee><name id=\"1\">益达</name><name id=\"2\">yida</name>" + "<title>Manager</title></empl ...

2015-10-08 14:37
浏览 3907
评论(0)
分类:编程语言

有关W3C Document操作的XML工具类

博客分类：

java base

XML W3C

纯干货,你懂的,各位看官直接看代码: package com.yida.spider4j.crawler.utils.xml; import java.io.File; import java.io.IOException; import java.io.InputStream; import java.io.StringReader; import java.util.ArrayList; import java.util.List; import javax.xml.parsers.DocumentBuilder; import javax.xml ...

2015-10-08 11:07
浏览 2055
评论(0)
分类:编程语言

maven-dependency-plugin(goals copy-dependencies unpack ) is not supported by m2e

博客分类：

problems

Maven

Maven异常： maven-dependency-plugin (goals copy-dependencies unpack ) is not supported by m2e 解决办法如下：将<plugins>元素包裹在<pluginManagement>元素之内，如图：改好后，crel + s保存你的pom.xml,然后在项目上右键-->Maven-->Update Project Configuration,然后问题就解决了。

2015-09-21 15:05
浏览 1760
评论(0)
分类:编程语言

跟益达学Solr5之拼音分词[改进版]

博客分类：

Solr

Solr Pinyin Analyzer

之前一篇介绍过如何自定义实现拼音分词器，不过当初只考虑了全拼这种情况，且有些BUG，趁着抗日胜利70周年阅兵3天假期有时间，又把当初的代码拿起来进行了改进，改进点包括支持全拼，简拼以及全拼+简拼，支持汉字数字是否NGram处理的可配置，支持NGram长度范围的可配置等，特此更新此篇进行分享！如有不妥之处，还望不吝指正！废话不多说，直接上代码： import java.io.IOException; import java.util.ArrayList; import java.util.Collection; import java.util.Iterat ...

2015-09-04 23:15
浏览 7036
评论(8)
分类:编程语言

Eclipse下运行启动Heritrix1.14.4

博客分类：

Heritrix

Heritrix Eclipse

前面我们知道了如何通过执行Heritrix官方提供的jar包去启动Heritrix,庆幸的是，Heritrix是完全开源的，所以我们可以将Heritrix的源码直接导入Eclipse去运行它。首先解压heritrix-1.14.4-src.zip到任意盘符，这里我直接解压到桌面，解压后� ...

2015-08-31 20:01
浏览 1720
评论(0)
分类:开源软件

益达教你如何抓取Ajax动态页面

博客分类：

HtmlUnit

HtmlUnit Ajax

何为Ajax动态网页，我想不用我多说了吧，如果你连Ajax是啥玩意儿都不知道，那你还是先去Google学习Ajax吧。为了形象起见，这里我以抓取这个网页为例进行讲解说明。网页链接如下： http://www.sse.com.cn/assortment/stoc ...

2015-08-28 10:40
浏览 5514
评论(0)
分类:开源软件

Heritrix1.14.4 Web后台使用简介

博客分类：

Heritrix

Heritrix

启动Heritrix后，访问http://localhost:6789就可以打开Heritrix的登录界面，登录后即进入了Heritrix Web后台的主页： console: Heritrix的控制台，会显示Heritrix的抓取任务和分配给Heritrix的Heap使用情况 Jobs：Heritrix的抓取任务界面，比如创建抓取任务，已挂起的任务，已完成的任务统计 Profiles:Heritrix抓取任务相关的配置 Logs:Heritrix的运行日志 Reports:Heritrix的统计报表

2015-08-20 11:35
浏览 1961
评论(1)
分类:开源软件

Heritrix1.14.4环境搭建

博客分类：

Heritrix

Heritrix

Heritrix是一个基于Java的开源的具有高扩展性高灵活性的Web爬虫开源项目。 Heritrix的几大亮点如下： 1.开源，如果你想了解爬虫相关知识，阅读Heritrix源码是不二之选。 2.抓取性能高，配置灵活 3.扩展性很好，便于进行二次开发

2015-08-20 09:11
浏览 2153
评论(2)
分类:编程语言

跟益达学Solr5之拼音分词

博客分类：

Solr

Solr Pinyin

应群友强烈要求，特此更新此篇博客。其实在我的Lucene5系列博客里我已经介绍了拼音分词，遗憾的是，大家不能举一反三，好吧，还是我亲自上马吧！首先我们来看看我当初使用Lucene5是如何实现的，在Solr ...

2015-06-27 13:15
浏览 5745
评论(3)
分类:编程语言

跟益达学Solr5之使用MMSeg4J分词器

博客分类：

Solr

Solr MMSeg4J

要想在Sor中使用MMSeg4J分词器，首先你需要自定义一个TokenizerFactory实现类，虽然直接配置Analyzer类也可以，但那样无法配置Analyzer构造函数的参数，不够灵活，存在弊端，所以我一直都是以扩展TokenizerFactory的方式来讲解� ...

2015-06-22 17:40
浏览 5250
评论(3)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

看英文PDF积累的英文常见短语词组

Another app is currently holding the yum lock; waiting for it to exit

修改系统IP(CentOS)

新浪微博模拟登录(Java)

音悦台800多万MV视频抓取

W3C Document 与Jsoup Document之间对象互转

有关W3C Document操作的XML工具类

maven-dependency-plugin(goals copy-dependencies unpack ) is not supported by m2e

跟益达学Solr5之拼音分词[改进版]

Eclipse下运行启动Heritrix1.14.4

益达教你如何抓取Ajax动态页面

Heritrix1.14.4 Web后台使用简介

Heritrix1.14.4环境搭建

跟益达学Solr5之拼音分词

跟益达学Solr5之使用MMSeg4J分词器

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>