`
yangzb
  • 浏览: 3522857 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

VoiceXML语音上网

阅读更多

VoiceXML语音上网

朱茜、朱新亚

  有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。

  VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。

  万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。

  为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。

  由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者 位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用 语法格式来识别出用户响应的语音词汇。

  下面我们来看一个具体的例子:

  系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”

  用户:“维护部门。”

  ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组 成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。

  开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请 求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。

  有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。

  VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。

  万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。

  为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。

  由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者 位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用 语法格式来识别出用户响应的语音词汇。

  下面我们来看一个具体的例子:

  系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”

  用户:“维护部门。”

  ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组 成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。

  开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请 求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。


  VoiceXML组件

分享到:
评论

相关推荐

    面向盲人上网的语音推送系统研究

    例如,HearSay项目采用VoiceXML处理用户交互,并将HTML网页自动转换为VoiceXML语音网页,同时将网页内容划分为多个块,允许用户通过快捷键跳过不必要的部分。IBM日本公司的研究则采取类似方法,通过将网页内容分成多...

    Voice XML 资料

    VoiceXML的出现极大地推动了语音上网的发展,允许用户通过电话而非传统键盘和鼠标来访问互联网内容和服务。 VoiceXML1.0是这个技术的初始版本,它为互联网语音应用提供了基础框架,使得开发者能够创建能够识别语音...

    清华比威推出BitEngine12000路由器.pdf

    VoicexML是一种语音交互标记语言,用于构建交互式语音响应(IVR)系统,整合了VoiceXML浏览器、自动语音识别(ASR)和文本转语音(TTS)技术,可以实现电话用户与系统的语音交流。 2. **本地网省级纵向联网系统**:...

    毕业论文-智云物业 2.1.4-整站商业源码.zip

    毕业论文-智云物业 2.1.4-整站商业源码.zip

    实训商业源码-【超人】积分商城 6.0.5-论文模板.zip

    实训商业源码-【超人】积分商城 6.0.5-论文模板.zip

    基于局部费歇尔判别的LFDA-SVM二分类及多分类建模与可视化 - MATLAB实现

    内容概要:本文介绍了基于局部费歇尔判别(LFDA)和SVM的支持向量机二分类及多分类建模方法。首先,通过LFDA进行数据降维,保留局部信息,减少数据维度。接着,利用降维后的数据构建SVM分类模型,完成二分类和多分类任务。文中详细描述了LFDA的数据预处理、局部协方差矩阵和均值向量计算、类内散度和类间散度矩阵计算、广义特征值求解等步骤,以及SVM模型的训练、评估和可视化展示。最后,提供了MATLAB程序框架和关键步骤的伪代码,帮助读者理解和实现该方法。 适用人群:从事数据分析、机器学习领域的研究人员和技术人员,尤其是熟悉MATLAB编程环境的从业者。 使用场景及目标:适用于需要处理多特征输入、单输出或多输出分类任务的场景。通过LFDA降维和SVM建模,提升分类模型的性能和准确性。同时,生成分类效果图、降维展示图和混淆矩阵图,便于直观地展示和分析模型效果。 其他说明:本文提供的MATLAB代码框架和伪代码,需要根据具体应用场景进行详细实现和调整。重点在于数据预处理、特征选择、模型训练和评估等环节的具体操作。

    2025年大学新生开学季风格模板范文.pptx

    2025年大学新生开学季风格模板范文

    实训商业源码-思创兼职小程序V6.7.5 开源版-论文模板.zip

    实训商业源码-思创兼职小程序V6.7.5 开源版-论文模板.zip

    实训商业源码-旅游景区线路连锁店版V1.9.16 小程序前端+后端-论文模板.zip

    实训商业源码-旅游景区线路连锁店版V1.9.16 小程序前端+后端-论文模板.zip

    实训商业源码-【表哥】4s汽车城小程序8.1.0 前端+后端-论文模板.zip

    实训商业源码-【表哥】4s汽车城小程序8.1.0 前端+后端-论文模板.zip

    混合储能系统中飞轮与蓄电池协同平抑风电功率波动的技术研究与实现

    内容概要:本文探讨了利用混合储能系统(飞轮与蓄电池)来平抑风电功率波动的方法。文中介绍了两种主要的功率分配策略:抗脉冲平均滤波和滑动平均滤波。抗脉冲平均滤波用于应对突发性的功率变化,由飞轮快速响应;滑动平均滤波则用于处理较长时间尺度内的功率波动,由蓄电池进行调节。这两种方法相结合可以有效减少蓄电池的充放电次数并提高飞轮的响应效率。此外,文中提供了具体的Python代码示例,展示了如何通过编程实现这些策略。 适合人群:对新能源发电、电力系统稳定性以及储能技术感兴趣的科研人员和技术开发者。 使用场景及目标:适用于需要解决风电功率波动问题的风电场或相关研究项目。目标是通过合理的功率分配策略,确保电力系统的稳定运行,降低因风力发电不稳定性带来的负面影响。 其他说明:文中提到的技术手段不仅有助于提高能源利用率,还能延长储能设备的使用寿命。对于希望深入了解储能技术和风电功率管理的人来说,这是一个很好的参考资料。

    毕业论文-子恩2.0-整站商业源码.zip

    毕业论文-子恩2.0-整站商业源码.zip

    毕业论文-小小素材库 6.3.1-整站商业源码.zip

    毕业论文-小小素材库 6.3.1-整站商业源码.zip

    2025年度创意卡通小学开学季班会模板.pptx

    2025年度创意卡通小学开学季班会模板

    实训商业源码-老虎-微信淘宝客5.99.99-论文模板.zip

    实训商业源码-老虎-微信淘宝客5.99.99-论文模板.zip

    DEEPPOLAR(3)-DEEPOLAR代码

    DEEPPOLAR(3)-DEEPOLAR代码

    基于COMSOL仿真的超声清洗系统:压电片分布对声场强度的影响研究

    内容概要:本文详细探讨了利用多个28kHz压电片在2mm钢质水槽外侧分布激励超声波的技术,重点分析了压电片厚度、数量、排列方式以及钢壁厚和水槽尺寸等因素对声场强度的影响。研究表明,适中的压电片厚度能产生更强的声场,较厚的钢壁有助于更好地传递超声波,而合理的压电片分布则能确保声场的均匀传播。通过COMSOL仿真软件,作者模拟并找到了最优的压电片分布方案,以提升超声清洗的效果。 适合人群:从事超声清洗技术研发的专业人士、相关领域的研究人员和技术爱好者。 使用场景及目标:适用于希望深入了解超声清洗技术原理及其优化方法的研究人员和技术人员,旨在提高超声清洗系统的效率和性能。 其他说明:本文不仅提供了理论分析,还结合了实际实验数据和COMSOL仿真结果,为超声清洗技术的发展提供了有价值的参考。

    永磁同步电机FOC矢量控制模型及其Simulink仿真与代码实践

    内容概要:本文介绍了自主研发的永磁同步电机FOC(Field Oriented Control)矢量控制模型及其代码实现。该模型集成了多种先进功能,如FOC算法、SVPWM、DPWM、死区补偿、过调制和母线电流估算等。通过Simulink界面进行源代码仿真,验证了模型的可靠性和有效性。主要内容涵盖FOC矢量控制模型的简介、代码的功能特点、Simulink仿真的方法及其应用效果。 适合人群:从事电机控制系统研究和开发的技术人员,尤其是对永磁同步电机和FOC控制感兴趣的工程师。 使用场景及目标:适用于需要深入了解和掌握永磁同步电机FOC控制技术的研究人员和技术开发者。目标是提升电机的运行效率、稳定性和输出转矩,同时优化电机的性能和可靠性。 其他说明:文中详细描述了如何利用Simulink进行仿真测试,确保代码在各种工况下都能稳定运行。这对于希望在实际项目中应用FOC控制技术的人来说非常有帮助。

    检维修电工培训资料及规程

    检维修电工培训资料及规程

    python打卡DAY17

    python打卡DAY17

Global site tag (gtag.js) - Google Analytics