`
zangwenyang
  • 浏览: 124743 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

关于基于规则方法的反思【连载3】-思考

 
阅读更多

原文地址:http://blog.sina.com.cn/s/blog_729574a0010134zr.html

 

原文内容:

 

【问4】基于规则方法是不是“拍脑袋”?

【答】不是。基于规则方法做了两件事情。第一,对“规则长什么样”做了一些可证伪的基础假设;第二

 

,鼓励人们对一些具体的语言,按照这些可证伪的基础假设,建立相应的具体的规则体系。第一件事情是

 

基于大量的语言事实,特别是基于生成学派的前身结构主义语言学派实地调查北美各印第安语言的实践。

 

其后又在根据各种批评不断调整充实完善,目标就是要具有语言共性,就是要能够为所有语言建立规则系

 

统提供统一的框架。第二件事情同样要基于语言事实,在语言事实基础上决定规则的对错和存留。特别是

 

,一旦“规则长什么样”的具体假设确定下来,甚至可以在技术上对应地确定从连续不断呈现的无标注语

 

料出发学习规则系统的具体学习算法。当然,对于具有一定复杂程度的语言,从语料学习规则只有在极限

 

意义下才是可行的。这些都说明,基于规则方法从来不是“拍脑袋”,从来都不拒绝语料和从语料中学习

 

,从来都把符合语言事实当做天经地义的最终且唯一的标准。个别规则体系做得不好,应该批评和改造的

 

是那个体系。关于“规则长什么样”的个别假设做得不好,应该批评和修改的是那个假设。基于规则方法

 

本身,迄今为止并未遭受有力的毁灭性批评。并没有过硬证据证明使用基于规则的方法不可能描述哪一种

 

语言。

    至于不随语料的增减而变化的部分,那是基于规则方法和基于统计方法里面都有的。在基于统计的方

 

法里,统计模型的通式、特征维度、标注体系,都是不随语料的增减而变化的。在基于规则的方法里,规

 

则的一般形态要比具体的规则体系稳定很多,具体的规则体系里,句法范畴要比重写规则稳定很多。等到

 

要讨论修改规则的一般形态的时候,基于规则的方法已经面临很深刻的危机了。不能因为一种方法里有不

 

随语料的增减而变化的部分,就说这种方法是“拍脑袋”。关键是,当方法与语言现状大规模不相符合时

 

,任何部分都必须是可调整的,都是受到语料的反馈作用的。当然,这里指的语料,是未经渗透理论的生

 

语料。按照特定标注体系标注过的语料,已经不能算是生语料,不在此列。

    进一步说,“拍脑袋”也和理性主义没有太大的关系。先假设后修正也好,先搜集后假设也好,都是

 

闭环反馈机制,这环都闭在语言事实面前,都接受语言事实的检验。对于有闭环的机制来说,顺序的先后

 

并不足以区分结果的优劣。理性主义不反对接受事实的检验,不反对闭环反馈。而“拍脑袋”说的是不要

 

闭环反馈机制,假设什么就是什么,不接受事实的检验。二者区分一目了然。

    那么,为什么过去二十年来基于规则方法的主流技术路线给人以“拍脑袋”的感觉呢?这要从基于规

 

则方法和基于统计方法受理闭环反馈的运作模式说起。在基于统计方法下,一旦统计模型、特征维度、标

 

记体系这些不变的东西确定以后,剩下的就只有语料的标注和参数的训练了。无论语料的标注还是参数的

 

训练,都不需要语言学家的参与,参数的训练基本是自动化的,语料的标注是劳务化的。 因此,基于统计

 

方法的执行力很高,沟通成本很低,反馈周期很短。这比较适应快速成型的应用。反观基于规则方法,具

 

体规则的取舍要语言学家来定,规则长什么样的取舍要顶级语言学家来定。一旦遇到问题反馈,响应效率

 

很低,沟通成本巨高。更深层次的原因是,在基于规则方法的形式化框架下,没有建立起一套很好的从实

 

例中学习、调整、维护语言学知识的自动化机制,更没有建立起一套适应问题反馈的语言学知识维护管理

 

机制。重点不恰当地落在了语言学家身上而不是语言学知识工程师的身上。这种分工方式的缺陷如果不能

 

很好地改进,确实对基于规则方法的生存和发展具有很大的阻碍作用。我在后面还会对这个现象怎么改进

 

提出建设性的设想。

 

 

 

总结:

 

建立“规则长成什么样子”  ,目标是要具有语言共性,就是要能够为所有语言建立规则系统提供统一的框架。

建立相应的具体的规则体系,则是从语料中逐步学习的,要基于语言事实,在语言事实基础上决定规则的对错和存留。

“拍脑袋”也和理性主义没有太大的关系。先假设后修正也好,先搜集后假设也好,都是闭环反馈机制。

 

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics