`
yangzb
  • 浏览: 3470316 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

VoiceXML语音上网

阅读更多

VoiceXML语音上网

朱茜、朱新亚

  有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。

  VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。

  万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。

  为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。

  由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者 位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用 语法格式来识别出用户响应的语音词汇。

  下面我们来看一个具体的例子:

  系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”

  用户:“维护部门。”

  ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组 成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。

  开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请 求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。

  有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。

  VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。

  万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。

  为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。

  由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者 位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用 语法格式来识别出用户响应的语音词汇。

  下面我们来看一个具体的例子:

  系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”

  用户:“维护部门。”

  ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组 成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。

  开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请 求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。


  VoiceXML组件

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics