版权说明:本论文为原创性文章,已经公开发表在 中国科技论文在线 (http://www.paper.edu.cn)。未经许可不可剽窃、抄袭、转载,违者责任自负。引用者请注明出处如下:
赵文, 唐建雄. 基于体裁的中文网页自动分类的研究与实现[EB/OL]. 中国科技论文在线(http://www.paper.edu.cn), 2008,4.
论文下载地址:http://www.paper.edu.cn/paper.php?serial_number=200804-268&task=comment
论文摘要:
基于体裁的中文网页自动分类的研究与实现
E-mail:zw_79@163.com
摘 要:为了优化互联网信息检索系统,使其能更准确的从结果集中区分出满足用户需要的页面,本文提出了一种对网页按体裁分类的方法。该方法以网页的标签、形态、内容、词性作为体裁特征,并以特征项的频率、集中度和分散度三者结合为衡量标准,利用自动特征选取技术,从中选取出有价值的特征项;然后采用基于相似度加权的KNN分类算法对网页按体裁进行自动分类;最后设计和实现了分类系统,并进行了实验测试与结果分析。结果表明:分类器开放测试的平均精度达到80%。
关键词:网页分类;体裁;特征提取;K近邻算法
中图分类号:TP391 文献标识码:A
分享到:
相关推荐
基于Python实现多类别文本分类.zip
主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工 作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌 算法的选择...
电信设备-一种基于体裁的多维信息检索系统.zip
有效的练习应基于文本的体裁样式-.docx
古代诗歌的体裁分类有哪些.pdf
研究了中文网页体裁分类的特征项选取问题及权重计算方法,探讨不同特征空间对体裁类别的判别能力问题,给出了一种评价方法。据此,提出一种特征项的权值调整策略,实验结果验证了该方法的有效性。
学术英语文章体裁总结
资源名字:基于SSM+mysql的古诗词数字化平台设计与实现(源码+设计文档+部署说明+视频演示).zip 资源内容:项目全套源码+完整文档 源码说明: 全部项目源码都是经过测试校正后百分百成功运行。 基于SSM+MySQL的古...
体裁分文章体裁和文学体裁.doc
研究表明,作为体裁分析的一种新的尝试,主题性多词单位分析能够揭示商务语篇中话步和策略的实现形式,同时解释语篇构建的心理认知因素和社会现实理据。其重要启示意义在于,基于主题性多词单位的商务英语函电教学把语篇...
Running the code CNN python cnn.py CRNN python crnn.py
通过结合视觉词袋技术使用随机森林分类器的基于统计机器学习的方法。 胶囊网络的实现 使用像AlexNet这样的预训练网络进行转移学习 数据集 用于此分类任务的数据集是从参考获得的Wikiart数据集。 下图说明了该数据集...
篇章研究主要集中在篇章的意义和结构,如体裁分析、语料库分析和多模态分析。语境研究从比较广泛的情境出发,如社会学和社会历史维度、人种志的研究。批判性话语分析和学术文化研究,把批判态度引入学术话语研究。这三...
各种研究都在探索形成我们音乐品味的众多决定因素,一些评论论文以一种离散的方式对它们进行了分类,以提供对决定因素更全面的理解。 作为一项类似的研究,这项研究通过图形模型描绘了根据我们的音乐感知过程对我们...
内容概要:它是一种以网络为基础平台的新兴的小说体裁,有风格自由、文体不限、发表阅读方式较为简单等特点。与一般的小说比起来,网络小说的语言会更加口语化,并且网络流行词汇充斥其中。另外,除了文字内容的差异外,...
RegisterandGenre语域与体裁PPT教案.pptx
跨境电商平台中产品介绍话语的批评体裁分析——以3C产品介绍语篇为例
借鉴既有史学成果,对古代歌谣、戏曲与曲艺及文人音乐中的词调歌曲进行了历史发展与形态特点的评述。不仅对各体裁有了宏观认识,还对体裁间的发展影响予以了分析。这对认识古代声乐体裁的历史成就及其传承发展有所帮助...
人物通讯体裁.doc