`
l_mai
  • 浏览: 65403 次
社区版块
存档分类
最新评论
  • waret: "&" "ctrl+z& ...
    2011-12-13
  • waret: 在软件设计的过程中中有一些基本的原则,其中有一条是少用继承,多 ...
    2011-11-14
  • waret: 1、序列化是干什么的?  简单说就是为了保存在内存中的各种对象 ...
    2011-11-15
  • waret: 吼吼~最小长度为5~
    2011-10-22

2011-11-01

 
阅读更多
想提高程序分析的准确度,语料库的问题很多。
百度知道:每一条的文字太少,各个分类不平衡的现象比较严重-》解决方法:重新对文字进行整合和划分
微话题:涉及内容不够全面
搜狗文本分类语料库:分类不准确
鲜果网语料库:目前测试还可以

分析原因:语料库中,没篇txt包含的文字数不能太少,每个分类包含的文字数量最好平衡。不同来源的语料库结合在一起使用并不很容易。分析不同的内容,最好采用不同的语料库。搜狗语料库是针对中文新闻,资源比较好整理。对于一些其他话题,如团购信息,则语料库是个问题。
分享到:
评论

相关推荐

    1970去百度去快车2011-11-01补丁

    1970去百度去快车2011-11-01补丁

    jsonbookmarks-2011-01-25

    bookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.json

    linux精通必学2011-01-11.part4

    linux精通必学2011-01-11.part4linux精通必学2011-01-11.part4linux精通必学2011-01-11.part4

    2011-01-01日期格式

    2011-01-01日期格式,让日期看起来更加整齐!

    linux精通必学2011-01-11.part3

    linux精通必学2011-01-11.part3linux精通必学2011-01-11.part3

    linux精通必学2011-01-11.part1

    linux精通必学2011-01-11.part1linux精通必学2011-01-11.part1

    linux精通必学2011-01-11.part2

    linux精通必学2011-01-11.part2linux精通必学2011-01-11.part2

    linux精通必学2011-01-11.part7

    linux精通必学2011-01-11.part7linux精通必学2011-01-11.part7

    linux精通必学2011-01-11.part6

    linux精通必学2011-01-11.part6linux精通必学2011-01-11.part6

    linux精通必学2011-01-11.part5

    linux精通必学2011-01-11.part5linux精通必学2011-01-11.part5

    敏感词过滤软件

    软件名称:敏感词过滤软件 软件目的:敏感词替换 截图 上传微薄 开发环境: vc++6 这个是一个学习vc++的一个业余工具,本人声明本工具不带有...2011-11-01 V0.11版本: 完成最小模型化功能 和谐一下 支持文本打开

    openssl 的VC工程for openssl-1.0.0e

    2011-09-27 11:01 123,904 enginetest.pdb 2011-09-27 11:01 57,434 errstr.exe 2011-09-27 11:01 285,692 errstr.ilk 2011-09-27 11:01 230,400 errstr.pdb 2011-09-27 11:01 32,860 evp_test.exe 2011-09-27 11:01...

    ISO IEC 7816(1-13, 15)

    2011-01-31. Retrieved 2011-11-12. ISO/IEC 7816-1:1998/Amd 1:2003 Maximum height of the IC contact surface". Iso.org. 2011-01-31. Retrieved 2011-11-12. ISO/IEC 7816-2:2007 Identification cards — ...

    破解工程完整源代码(包括内核驱动)

    2011-10-04 13:01 <DIR> . 2011-10-04 13:01 <DIR> .. 2011-10-04 13:01 <DIR> 内存 2011-10-04 13:02 <DIR> 字符串 2011-10-04 13:09 4,635,835 A.rar 2011-10-04 14:25 <DIR> 反汇编 2011-10-04 15:08 <DIR> 反...

    hibernate各个版本下载地址

    3.5.0-Beta-4 2010-01-29 3.5.0-Beta-3 2010-01-14 3.5.0-Beta-2 2009-11-03 3.5.0.Beta-1 2009-08-21 3.3.2.GA 2009-06-24 3.2.7.ga 2009-06-03 3.3.1.GA 2008-09-11 3.3.0.SP1 2008-08-20 3.3.0.GA 2008-...

    每天任务提醒

    因此初始化s ettimer是程序启动的时间,举例:你设置了2011-11 -11 11:11响铃,他会在2011-11-11 11:11:59响,也可能在2011-11-11 11:11:01响,也可能在2011-11-11 11:11:11响,取决于程序启动时的秒数,我也想做成...

    grub4dos-V0.4.6a-2017-02-04更新

    n: 1-9 或 01-99 或 001-999。 3.增加固定图像的背景色可以透明。 splashimage [--offset=[type]=[x]=[y]] FILE 类型[type]:bit 7: 透明背景 2016-02-14(yaya) setmenu 函数增加菜单项目背景短/满参数(默认...

    html+Js抽奖系统 2.0.1

    2011-01-14 部分键 F5、退格、Ctrl+R、Ctrl+N、Shift+F10、Alt+F4 被屏蔽,避免一些意外发生 2011-01-14 优化了一些繁琐的结构,效率有所提升! 2011-01-16 去掉了配置参数 r、r_name,奖项配置变为window.ini,使...

    抽奖系统V1.2.2 纯HTML+JS开发

    2011-01-14 部分键 F5、退格、Ctrl+R、Ctrl+N、Shift+F10、Alt+F4 被屏蔽,避免一些意外发生 2011-01-14 优化了一些繁琐的结构,效率有所提升! 2011-01-16 去掉了配置参数 r、r_name,奖项配置变为window.ini,使...

    Linux下如何使用grep命令查找带有tab(退格)的字符

    需要在日志文件统计删除的主帖,而日志文件是tab(退格)字符隔开的;假设日志文件名叫delete.log。... 2011-11-01 00:19 11 71163800 134379  2011-11-01 00:19 12 71163801 134379  2011-11-01 00:

Global site tag (gtag.js) - Google Analytics