`
l_mai
  • 浏览: 65391 次
社区版块
存档分类
最新评论
  • waret: "&" "ctrl+z& ...
    2011-12-13
  • waret: 在软件设计的过程中中有一些基本的原则,其中有一条是少用继承,多 ...
    2011-11-14
  • waret: 1、序列化是干什么的?  简单说就是为了保存在内存中的各种对象 ...
    2011-11-15
  • waret: 吼吼~最小长度为5~
    2011-10-22

2011-12-2

 
阅读更多
uasvr开发备忘
在uasvr使用的过程中,首先遇到了调用servlet的方法问题,直接使用url的openstream会遇到字数的限制,后采用httpclient,能够成功调用servlet程序clsvr的GET方法,在调用过程中遇到的问题是url中非法字符要去掉,使用的是String的replaceAll的方法。
之后主要问题在于程序的速度。首先对clsvr采用了多线程处理,后采用了缓存语料库到内存,最后采用了训练语料库时将中间结果序列化到硬盘。程序的速度得到了很大提高。
语料库的选择之前百度知道分类不够准确,分类多被分到历史话题、星座运势等分类中,后采用鲜果网语料库,鲜果网的语料库分类较少,使得分类不够精确,后又采用百度知道的语料库,通过减少特征词的选取量,提高了百度知道语料库分类的精确度,分析原因是特征词选取减少使得词语更能代表这一类,不同类出现的概率是平等的,而之前特征词比较多,一些对分类贡献不大的词会因为语料库中一些分类中词语涵盖比较全而被误分类。在提高了精确度的同时,也造成了一些句子的误分类。这与贝叶斯分类假设词语之间是相互独立的有关。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics