`
robbin
  • 浏览: 4798297 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
377a9ecd-1ea1-34ac-9530-9daa53bb2a7b
robbin谈管理
浏览量:135701
社区版块
存档分类
最新评论

使用libmmseg实现Ruby的中文分词功能

    博客分类:
  • Ruby
阅读更多
用Ruby on Rails开发web2.0网站的人都知道,ruby的全文检索功能不像Java支持的那样好,要提供中文的全文检索功能是一件很困难的事情,而偏偏全文检索是web2.0网站绕不过去的一道坎。虽然ruby也有类似lucene的全文检索软件ferret,但是ferret本身并没有提供中文分词功能,必须自己另行扩展中文分词功能。因此攻克ruby中文全文检索功能的瓶颈在于提供ruby的中文分词功能。

Java的lucene虽然也没有中文分词功能,但是现在有很多第三方开源的Java中文分词项目,因此Java的中文分词并不是一个难以解决的问题。但对于ruby来说,由于ruby的性能相当差,因此中文分词这种需要大量的、密集的字符串运算,ruby编写的中文分词代码性能根本无法接受,唯一的办法就是用C/C++编写分词算法,用ruby去调用。

libmmseg是李沫南用C++编写的开源的中文分词软件,libmmseg的分词算法采用的是“基于词库的最大匹配算法”,分词速度为每秒300KB左右。

libmmseg主要被作者用来实现Sphinx全文检索软件的中文分词功能,因此作者给Sphinx提供了一个补丁文件,可以让Sphinx集成libmmseg,从而支持对于中文文章的全文检索功能,关于这一点可以看:http://www.coreseek.cn/index.php?page=Sphinx的介绍。

libmmseg从0.7.2版本开始,作者提供了ruby调用的接口,所以我们可以直接在ruby程序里面调用libmmseg进行分词了。特别是我们可以用ferret去调用libmmseg分词功能,从而让ruby原生支持中文的全文检索,这无疑是一个好消息。然而libmmseg和ruby的集成颇有些麻烦,因此希望这篇文章可以提供一点点指导。

一、下载libmmseg

首先是到作者的网站下面最新版本的libmmseg http://www.coreseek.cn/opensource/mmseg/,但libmmseg 0.7.3作者还没有在网站上面更新,因此可以从本文附件下载。

二、安装libmmseg

解压缩以后,标准的Unix源代码编译安装流程:
unzip mmseg-0.7.3.zip
cd mmseg-0.7.3
chmod a+x configure
./configure
make && make install


顺利的话libmmseg被安装到/usr/local相应的目录下面,建议再执行一下 ldconfig 命令,更新链接库缓存。

提示:编译libmmseg,gcc的版本必须是4.0以上。我的Linux是gcc 3.3.3编译失败,解决办法是注释掉src/css/UnigramCorpusReader.cpp这个文件的int UnigramCorpusReader::open(const char* filename, const char* type)方法里面的所有内容,让这个方法为空方法,这样就可以编译通过了。但是mmseg命令行工具就无法使用了。

三、安装ruby扩展

libmmseg软件包下面有一个ruby目录,进入该目录编译ruby。这里作者没有把相应的h文件依赖关系写好,因此需要我们手工把所有相关h文件拷贝到当前目录,确保编译的通过,详细操作如下:
cd ruby
cp /usr/local/include/mmseg/*.h . 
cp ../src/*.h .
cp ../src/css/*.h .
ruby extconf.lin.rb
make && make install


顺利的话,编译好的mmseg.so就会被拷贝到ruby的系统库扩展目录下面。你可以简单的测试一下,进入irb,尝试load一下mmseg,看能否成功:
irb
require 'mmseg'


四、创建词典文件

进入libmmseg软件包的data目录下面,执行如下命令:
mmseg -u unigram.txt

把生成的文件改名为uni.lib,拷贝到ruby目录下面,然后执行测试:ruby test.rb,如果一切都顺利的话,你可以看到test.rb测试是通过的。

提示:如果你的gcc版本低于4.0,则无法编译libmmseg,如果你按照前面的提示编译通过了,那么这里无法使用mmseg生成词典文件。解决办法就是另外找台机器安装gcc4.0编译,生成字典文件。

五、编写ferret的Analyzer,封装一个可以处理中文的分词器

我们知道ferret的StandardAnalyzer是不支持中文分词的,因此我们要自己封装一个Analyzer,用mmseg来分词。然后在我们自己的Rails项目目录下面,我们把前面创建好的词典文件uni.lib放在项目的dict/uni.lib位置(可以自己创建一个dict目录),记得在程序里面正确的加载词典文件:
require 'ferret'
require 'mmseg'

class ChineseAnalyzer < Ferret::Analysis::Analyzer
  def initialize
    @mmseg = Mmseg.createSeg("#{RAILS_ROOT}/dict", "")
  end
  
  def token_stream(field, text)
    Ferret::Analysis::LowerCaseFilter.new(Tokenizer.new(@mmseg, text))
  end
end

class Tokenizer < Ferret::Analysis::TokenStream
  def initialize(mmseg, text)
    @mmseg = mmseg
    self.text = text
  end
  
  def next
    if @mmseg.next
      @token.text = @text[@mmseg.start...@mmseg.end]
      @token.start = @mmseg.start
      @token.end = @mmseg.end
      @token
    end
  end
  
  def text
    @text
  end

  def text=(text)
    @text = text
    @mmseg.setText(text)
    @token = Ferret::Analysis::Token.new("", 0, 0)
  end    
end


有了这个ChineseAnalyzer,我们就可以方便的在Rails程序里面进行中文分词和全文检索了。根据我的实际测试,在ruby代码中调用libmmseg,性能相当不错,而且内存消耗比较低,完全可以放心的在生产环境使用,作为Rails网站的中文全文检索功能的支撑。

分享到:
评论
12 楼 zhangzldipan 2008-09-26  
require 'ChineseAnalyzer'

acts_as_ferret({:fields =>  {:theme=>{},:content=>{}}},   {:analyzer=>ChineseAnalyzer::ChineseAnalyzer.new})

加多点参数吧!提高速度啊!
11 楼 Stainlesssteel 2008-07-10  
universac 写道
robbin,不知道你相关文章是怎么实现的,用什么算法提取关键字的?总不可能把分词结果一股脑交给sphinx或者ferret作为关键字去全文检索吧?

搜索 分类算法
10 楼 universac 2008-06-17  
robbin,不知道你相关文章是怎么实现的,用什么算法提取关键字的?总不可能把分词结果一股脑交给sphinx或者ferret作为关键字去全文检索吧?
9 楼 robbin 2008-06-12  
dazuiba 写道
不知道大家尝试过没有:
单字切词的查询效果已经相当不错了!

针对一般的需要,起码够用了。
如果大家的精力有限,还有查询精度要求并不很高,可以考虑跳过使用第三方分词器。直接单子切词。


对,如果只是提供简单的全站搜索的话,单字拆分切词已经基本够用。 更高精确度的切分在提供相关文章,语料训练,以及好友推荐方面会发挥作用。
8 楼 dazuiba 2008-06-12  
不知道大家尝试过没有:
单字切词的查询效果已经相当不错了!

针对一般的需要,起码够用了。
如果大家的精力有限,还有查询精度要求并不很高,可以考虑跳过使用第三方分词器。直接单子切词。
7 楼 purpen 2008-06-11  
安装ruby扩展时,报以下error:
引用
cc -dynamic -bundle -undefined suppress -flat_namespace -o mmseg.bundle rubyapi.o -L"." -L"/opt/local/lib" -L. -L/opt/local/lib    -lruby -lmmseg -lstdc++  -lpthread -ldl -lobjc 
/usr/bin/ld: can't locate file for: -lmmseg
collect2: ld returned 1 exit status
make: *** [mmseg.bundle] Error 1


顺便问一下,还有别的语言的扩展吗?
6 楼 hapybird 2008-05-27  
rmmseg不是早就有了吗?
5 楼 beenhero 2008-05-27  
子曰网,就用了李兄贡献的libmmseg做全文检索,http://www.zikii.com/search?q=地震&model=all,sphinx本身速度非常快,基本在0.006的水平,分词的效果我也很满意了。
4 楼 xinbo.tang 2008-05-26  
rails 的中文支持终于拨云见日了阿~
3 楼 judytang 2008-05-25  
Robbin朋友好,来回访,谢谢你的跟帖,你写的这个帖子很认真,刚来JAVAEYE给我最深刻的感觉是这里的帖子都很认真,非常喜欢这样的氛围,我是GLASSFISH测试组的管理,我们组也测试WEB2.o和jRUBY.  GLASSFISH V3 支持jRUBY. 希望能多交流 !

2 楼 jollibee 2008-05-25  
很好很强大
1 楼 CaiDeHen 2008-05-24  
个人觉得这个具有跨时代的意义。

相关推荐

    Linux/OS X 下安装 LibMMSeg 中文分词包

    mmseg http://www.coreseek.cn/uploads/csft/3.2/mmseg-3.2.14.tar.gz

    Sphinx搜索引擎架构与使用文档(和MySQL结合)V1.1_张宴

    关于sphinx搜索引擎架构的完全版本,讲述sphinx+libmmseg中文分词结合的配置

    Sphinx搜索引擎架构与使用文档(和MySQL结合)V1.1.

    ⑹、中文分词词库: 5 二、MYSQL+SPHINX+SPHINXSE安装步骤: 5 1、安装python支持 5 2、编译安装LibMMSeg 5 3、编译安装MySQL 5.1.26-rc、Sphinx、SphinxSE存储引擎 5 4、创建Sphinx索引文件和MySQL数据文件存放目录...

    mmseg-0.7.3.tar.gz

    基于sphinx的中文支持包 LibMMSeg是为Sphinx全文搜索引擎设计的

    node-v9.6.0-x86.msi

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    Python基于机器学习的分布式系统故障诊断系统源代码,分布式系统的故障数据进行分析,设计故障诊断模型,高效地分析并识别故障类别

    基于技术手段(包括但不限于机器学习、深度学习等技术)对分布式系统的故障数据进行分析,设计故障诊断模型,高效地分析并识别故障类别,实现分布式系统故障运维的智能化,快速恢复故障的同时大大降低分布式系统运维工作的难度,减少运维对人力资源的消耗。在分布式系统中某个节点发生故障时,故障会沿着分布式系统的拓扑结构进行传播,造成自身节点及其邻接节点相关的KPI指标和发生大量日志异常

    JavaScript前端开发的核心语言前端开发的核心语言

    javascript 当今互联网时代,JavaScript已经成为了前端开发的核心语言它是一种高级程序设计语言,通常用于网页的交互和动态效果的实现。JavaScript的灵活性以及广泛的使用使得它变得异常重要,能够为用户带来更好的用户体验。 JavaScript的特点之一是它的轻量级,它可以在网页中运行无需单独的编译或下载。这意味着网页可以更快地加载并且用户无需安装额外的软件才能运行网页上的JavaScript代码。此外,与HTML和CSS紧密结合,可以直接在HTML文档中嵌入,使得网页的开发变得非常便捷。 JavaScript具有动态性,它可以在浏览器中实时修改页面内容和样。它可以通过操作DOM(文档对象模型来动态地修改网页的结构和布局,并且可以根据用户的行为实时地响应各种事件,如点击、标悬停、滚动等。这使得开发者可以轻松地为网页添加交互性和动态效果,提供更好的用户体验。 JavaScript也是一种面向对象的语言。它支持对象、类、继承、多态等面向对象编程的概念,使得代码结构更加清晰和可维护。开发者可以创建自定义的对象和方法,对功能进行封装和复用,提高代码的可读性和可维护性。

    四则运算自动生成程序安装包

    四则运算自动生成程序安装包

    基于Linux的私有文件服务器(网盘).zip

    基于Linux的私有文件服务器(网盘)

    源代码-access 管理 系统 API 文件.zip

    源代码-access 管理 系统 API 文件.zip

    海康机器人智能读码器工业协议操作手册V1.0.2.pdf

    海康机器人智能读码器工业协议操作手册V1.0.2.pdf

    256ssm-mysql-jsp 在线捐赠系统.zip(可运行源码+数据库文件+文档)

    根据需求,确定系统采用JSP技术,JAVA作为编程语言,MySQL作为数据库。整个系统要操作方便、易于维护、灵活实用。主要实现了系统用户管理、注册用户管理、信息发布管理、医疗物品分类管理、项目信息管理、捐赠项目管理、志愿者申请管理、个人求助管理、个人捐赠统计、系统管理等功能。 前台用户模块包括: 1. 首页:网站打开的第一个页面,显示网站的最新信息。 2. 用户注册/登录、3. 新闻资讯、4. 暖心故事、5. 我要求助、6. 我要捐赠、7. 我们的项目、8. 志愿者中心:实现志愿者中心的列表显示、9. 系统简介、10. 在线留言、11. 用户后台 后台管理员模块包括: 1. 系统用户管理、2. 注册用户管理、3. 信息发布管理、4. 医疗物品分类管理、5. 项目信息管理、6. 捐赠项目管理、7. 志愿者申请管理、8. 个人求助管理:管理员可以设置个人求助审核状态,可以删除个人求助审核信息。 9. 个人捐赠统计:管理员可以查看个人捐赠统计信息。 10. 系统管理:管理员可以对留言板信息进行查看、回复或删除 关键词:医药捐赠系统;JSP;MySQL

    系统性文献综述的撰写(Systematic Review)-范文2.pdf

    参考范文:Findings on Teaching Machine Learning inHigh School: A Ten -Year SystematicLiterature Review 用于学习研究,侵权请联系本人删除

    管理后台项目开发脚手架,基于vue-element-admin和springboot搭建,前后端分离方式开发和部署.zip

    管理后台项目开发脚手架,基于vue-element-admin和springboot搭建,前后端分离方式开发和部署.zip

    中世纪童话主题游戏设计元素组件素材Complete Fantasy Game UI kit.zip

    游戏开发资源,游戏UI,游戏GUI,游戏图标,PSD格式,XD格式,PNG下载,源文件,可编辑下载,游戏购物充值界面,宝石,图标,PS格式,AI格式等,游戏APP

    node-v7.7.3-sunos-x86.tar.gz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    毕业设计:Python图书馆大数据可视化分析系统(源码 + 数据库 + 说明文档)

    毕业设计:Python图书馆大数据可视化分析系统(源码 + 数据库 + 说明文档) 2 开发技术简介 4 2.1 基于B/S结构开发 4 2.2 python语言简介 4 2.3 MySQL数据库 4 3 需求分析 6 3.1 需求概述 6 3.2 业务流程分析 6 3.3 功能需求分析 7 3.4 性能需求分析 7 4 系统设计 8 4.1 设计指导思想和原则 8 4.2 界面设计 8 4.3 输入输出设计 9 4.4 数据库设计原则 9 4.5数据表设计 10 4.6系统模块总体设计 11 5 系统详细设计 12 5.1 注册 12 5.2 登录 13 5.3 图书列表 13 5.4 图书管理 14 6 系统测试 15 6.1 系统测试的方法与步骤 15 6.2 模块测试 15 6.4 评价 17

    什么是python-对于我们来说学习python的意义是什么

    python

    基于nwjs的网易云音乐Linux版客户端.zip

    基于nwjs的网易云音乐Linux版客户端

    node-v10.13.0-win-x86.zip

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

Global site tag (gtag.js) - Google Analytics