`
lovepoem
  • 浏览: 16934 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
    最近开始做一个项目的搜索引擎,技术选型为爬虫nutch。开始以为除了cms系统发布的静态页面以外,还有数据库存储的结构化数据需要索引(其实这些用页面是用jsp展示的,在系统中已经有了)。所以用爬虫爬完网站后,就想着再把结构化的数据通lucene的api写进nutch的索引中,最后通过多次尝试发现很难实现。虽然能将lucene建立的索引追加进到nutch的索引中,可是却很难读出来(有一款luke软件可以,可是想要赶紧完成项目,这个luke的源码没有时间来读)。     lucene是一个平面化的存储,一个索引就相当于数据库的一张表。而nutch的存储结构是hdfs存储系统,hadoop的分 ...
今天用hibernate 3.5.6 annotation 双向一对多时候出现了异常,Invocation of init method failed; nested exception is java.lang.NoSuchMethodError:javax.persistence.OneToMany.orphanRemova()Z 上网一查发现是ejb3-persistence.jar的问题,解决方法是去掉ejb3-persistence.jar,使用hibernate-jpa-2.0-api-1.0.0.Final.jar 现贴出我自己的配法 一方(课程库):Course.clas ...
换了新驱动ojdbc14.jar 对某个表进行新增处理时候报错(在jdk1.5下面) 151657 [http-8000-1] ERROR org.springframework.jdbc.support.lob.OracleLobHandler  OracleLobHandler.java 417 - Could not free Oracle LOB java.sql.SQLException: Io 异常: End of TNS data channel 发现是此表中有个clob字段报异常,说明此驱动有问题。 最后解决办法是 换了个新驱动 ojdbc14.jar(1347kb) ...

将博客搬至CSDN

将博客搬至CSDN
//去除数组的重复元素 Array.prototype.distinct = function(){ var $ = this; var o1 = {}; var o2 = {}; var o3 = []; var o; for(var i=0;o = $[i];i++){ if(o in o1){ if(!(o in o2)) o2[o] = o; delete $[i]; }else{ o1[o] = o; } } $.length = 0; for(o in o1){ $.push(o); } ...
      最近在研究nutch,将爬虫的源码导入eclipse。参照apache的一个wiki进行了配置。   http://wiki.apache.org/nutch/RunNutchInEclipse1.0     可是运行起单元测试起来会报出异常:     2011-05-27 11:15:46,747 WARN  regex.RegexURLNormalizer (RegexURLNormalizer.java:setConf(113)) - Can't load the default config file! regex-normalize.xml 2011-05- ...
转自:http://blog.csdn.net/jaunlee/archive/2008/02/01/2077291.aspx   生产者和消费者问题是从操作系统中的许多实际同步问题中抽象出来的具有 代表性的问题。它反映了操作系统中典型的同步例子。   生产者进程(进程由多个线程组成 ...
最近用nutch抓取了几个g的数据,爬了两天了。中途要断电,网上找到别人的断点继续爬取的方式,解决了问题。   nutch抓取过程是分阶段的,每个阶段完成后都会写到文件中。附nutch抓取的阶段: (injector) ->generator -> fetcher -> crawldb updater -> linkdb updater -> indexer ->deldup -> merger。       下面是从fetcher阶段之后,各个阶段的调用命令:(假设crawl为抓取目录,crawl/segments存放每一轮抓取的结果,cr ...
最近自己搭了个hibernate3 +spring3+struts2的框架。发现在jsp到action得到数据时候,出现了乱码。自己写了个过滤器,还是没有用。 在tomcat的server.xml修改URIEncoding='UTF-8'也还是不行。 最后网上搜索下,原来struts2需要在struts.xml添加上这么一行,就解决了。 <constant name="struts.i18n.encoding" value="UTF-8"/>
function resolveScientificNotation() { var fNumber = '3.2312342E7'; alert(new Number(fNumber)); fNumber=3.2312342E7; alert(fNumber.toString()); }
Global site tag (gtag.js) - Google Analytics