阅读更多

2顶
0踩

互联网
对于人类读唇者来说,在剥离音频线索的情况下,语境是破译文字的关键。但是英国东英吉利大学(UEA)开发的一种技术模型可以比人类读唇者以更高的准确性来解释嘴里说出的词语,这要归功于使用了机器学习技术将声音从视觉方面进行分类。而且算法并不需要知道对话的语境就能够识别出你使用的词语。

然而此模型仍然处于研究阶段,对于自动将视觉线索转换成准确话语技术方面还有许多潜在应用——无论是在帮助有听觉障碍的人方面,还是在使用额外语音数据来增加无声视频片段方面——甚至是在比赛高潮找到足球运动员说的最多的词……

这种技术也可以在移动或视频通话语音质量不佳的情况下,作为后备使用。或是自动化字幕。或者是在带有摄像头的手机上启动”语音”助手,你不需要真正发声,只需用唇语命令(这会有多么酷?)。肯定地说,机器驱动的读唇应用数量浩如烟海。因此,只要研究人员可以发掘它的优势,那么它未来的潜力将不可限量。

开发这套读唇机器学习模型的UEA团队正在使用纯视觉输入——那么就可以在没有任何音频输入的情况下,通过嘴唇发声时的形状来训练模型。

Helen Bear博士表示,“我们正在寻找视觉线索,判断它们是如何变化的?我们知道它们因人的不同而不同。人们是如何使用它们的?又有什么区别?以及我们是否能够在我们的模型中使用这种特殊训练方法中的知识?我们可以这么做”。她在UEA计算机科学学院教授Richard Harvey的指导下,在她的博士论文中对视觉语音识别技术模型进行了论述。

她补充说,“读唇机器背后的理念是,机器本身没有情感,它不介意理解是否正确或错误——它只是努力学习。所以在论文中……我已经展示了如何使用这些视觉困惑做出更好的音素分类器。所以这是种新的训练方法”。

Bear博士注意到,目前许多读唇方面的研究使用音频和视觉线索来提高机器读唇的准确性。因此UEA模型脱颖而出,它只关注视觉讲话,想尽一切办法提高机器驱动的嘴唇阅读。

“我们假装根本没有音频信号”,她说,“我们的想法是,这个系统可以只能读唇,或者它可以用在视听系统中,希望在某天视听系统能使用到,当重新获得音频信号之前,只处理视觉信号,比如,如果你在Skype上与人视频,突然音频信号丢失了,而你仍然可以看到对方。”

对于一般读唇技术的核心挑战是——至少对于人类肉眼来说——比起人类发出的声音来说,视觉线索要少。容易混淆的具有相似嘴型的发音有‘/p/’,‘/b/’,和‘/m/’,它们都会对人类读唇者造成困难。然而UEA的视觉语音模型可以更好的区分这些视觉上相似的唇形。

Bear博士表示,“‘/p/’,‘/b/’,和‘/m/’之间的唇形是有些区别的,但是人类很难发现,不过如果使用机器的话,我们可以发现的确有不同之处,我们的识别器在这方面效果更佳。”

在讨论训练技巧时,她说,“如果我试图建立一个只识别/p/声音的分类器,我会做的是,首先在所有看上去相同的声音上训练。然后我们通过针对/p/声音做更多的迭代训练来改善训练”。

她补充道,“我们实际上是在学习、理解这些视觉单元的意义,以及它们如何根据不同的人而改变,我们已经使用这种知识来改变传统的读唇系统,并使之更好。这是很显著的进步”。

Bear博士表示,“更好”仍然是相对而言——读唇的准确率一直很低。模型识别一个词语的准确率为10%到20%(即正确识别一个词),尽管她强调比猜还是要高许多。她补充道,在一句话中,它显然更容易从全部文字里区分感官。

她对TechCrunch说,“说实话,我们不能100%肯定(这为什么起作用),我们只知道使用特殊的分类器,如果我们用正确的方式、正确的数据来训练它们,它们不会有任何偏差”。

“这里复杂的是理解为什么视觉语音复杂,这一问题比回答为什么我们可以使用机器学习得到更好结果要困难的多。我们知道机器学习一直在演变,我们会得到不同类型的分类器……但询问它们在学习什么,视觉语音如何,它差异多大,以及我们如何控制这些变量,这些都是难以回答的问题。”

当被问及距这项研究在应用程序中商业化还有多远时,她打趣道:“如果我在谷歌工作可能会很快!”,把这项研究商业化可能需要几年时间。

他说,“我们仍然还有东西需要学习和理解”,这项研究就像是连锁的语言模型,机器需要具备这些来熟练准确地从推特中抓取数据,这就会是读唇的转折点。

另外值得一提的是,UEA模型只处理英语。因此,在应用程序中使用读唇技术所面临的挑战还是不容低估的。

UEA可以与其他语言预测技术结合使用吗?——比如基于下个词语预测技术的机器学习——以此进一步增强读唇能力。“这正是我愿意做的”,她说,“往我们的模型中加入一些健壮的东西是非常棒的,但这也需要更多的时间。它不会马上推出”。

Bear博士将在本周五于上海举行的国际声学、语音和信号处理会议上展示她的研究成果,她的论文——Decoding visemes: Improving machine lip-reading ——也将公布。这项研究来自于一个为期三年的项目,由工程和物理科学研究理事会资助。

原文链接:Machine learning technique boosts lip-reading accuracy
译者:刘翔宇 审校:赵屹华
责编:周建丁
2
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 【MMML】多模态机器学习高被引综述论文笔记

    我们首先讨论多模态机器学习的主要应用(第 2 节),然后讨论多模态机器学习面临的所有五个核心技术挑战的最新发展:表示(第 3 节)、翻译(第 4 节)、对齐(第 5 节)、融合(第 6 节)和协同学习(第 7 节)。...

  • 多模态机器学习综述

    从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增,多模态机器学习是一个充满活力的多学科领域,并且重要性日益提高,潜力巨大。 3、由于数据的异构性,多模态机器学习的研究领域给计算研究者带来了一些...

  • 多模态机器学习综述翻译(转载)

    文章:《Multimodal Machine Learning: A Survey and Taxonomy》多模态机器学习综述【摘要】我们对世界的体验是多模式的 - 我们看到物体,听到声音,感觉到纹理,闻到气味和尝到味道。模态是指某种事物发生或经历的...

  • 多模态机器学习概述及其音视频融合总结

    文章目录 前言 综述总结 摘要 1.1 介绍 1.2 多模态机器学习研究方向 1.3 多模态机器学习发展和应用 多模态表示 联合表示 神经网络 图形模型 序列模型 协同表示 章节小结 翻译 对齐挑战 融合 协同学习 综述总结 参考...

  • 【机器学习论文翻译】去信任的机器学习合约:在以太坊区块链上评估和交换机器学习模型1

    如果你有什么问题,希望跟我能够一起交流,除了通过博客交流外,欢迎你加入我的QQ群,一起交流有关于机器学习、深度学习、计算机视觉有关内容。目前我处于广泛涉猎阶段,希望我们能够一起沟通。下图是我的群二维码:...

  • 读Hearing Lips:Improving Lip Reading by Distilling Speech Recognizers论文

    标题:听唇:通过蒸馏语音识别器改善唇读 关键词:多模态、语音唇读LIBS、CMLR中文数据集、Lip by Speech (LIBS)、CSSMCM、attention-based sequence-to-sequence model [sos] => 句子起始标识符、[eos] => ...

  • 【读点论文】Deep Learning Face Representation by Joint Identification-Verification,深度学习应用在优化问题上,deepid2

    Deep Learning Face Representation by Joint Identification-Verification ...在具有挑战性的LFW数据集上,人脸验证精度达到99.15%。 人脸验证 同一身份的面孔在不同的姿势、照明、表情、年龄和遮挡下

  • Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

    Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读 目录 《Multimodal Machine Learning: A Survey and Taxonomy》翻译与解读 Abstract 1 INTRODUCTION 2 ...

  • 云计算实战应用案例精讲-【深度学习】多模态融合(补充篇)

    模态对齐是多模态融合关键技术之一,是指从两个或多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,希望找到图像区域与标题单词或短语的对应关系[72]。多模态对齐方法分为显式对齐和隐式对齐...

  • 我们是怎样发出声音的?

    对于源-滤波器模型,2016年Wolfe教授利用3-D打印技术做了一个演示性的实验。他制作了两个人工头,分别演示人在说'had'和'heard'两个字里的元音的发声情况。 发声演示实验示意图 第一行给出了源的时域和频域特征图,...

  • iMeta | 北大陈峰组综述口腔微生物组的标准化研究:从技术驱动到假说驱动

    点击蓝字 关注我们口腔微生物组:从技术驱动到假设驱动https://onlinelibrary.wiley.com/doi/10.1002/imt2.194.11iMetaREVIEW ARTICLE●2022年4月11日,北京大学口腔医院高楚琪等在iMeta在线发表题为“Standardized ...

  • 神经网络 分类: 机器学习 2014-08-12 1...

    高速数字计算机是近50年来最重要的技术发展之一。它时常被称作冯.诺依曼计算机,  以纪念这位杰出的科学家、计算机的缔造者。由于计算机能像人脑一样对符号和数字进行操 作,人们自然地想像脑是某种形式相当复杂的...

  • 知识蒸馏学习

    大模型在部署到资源有限的设备上(手机、嵌入式设备等)会遇到体积和速度问题,知识蒸馏作为有代表性的模型压缩和加速的技术之一(其他还有:参数裁剪和共享、低秩分解和Transferred compact convolutional filters...

  • 读的一些书

    简而言之就就是:在活着的时候,可以干几份工作,体验多种不同的生活方式,但各种生活之间都要做到经济独立,不把生活 A 中挣到的钱使用到生活 B 中。 作者的行文蛮有意思,记一些有意思的片段: 世间所有天平倾斜式...

  • 下一个深度学习的风口在哪里?

    深度学习下一个风口在哪里?

  • 经典论文-SeNet论文及实践

    为了提高网络的表示能力,许多现有的工作已经显示出增强空间编码的好处。在这项工作中,我们专注于通道,并提出了一种新颖的架构单元,我们称之为**“Squeeze-and-Excitation”(SE)模块**,通过显式地建模通道之间...

  • 华夏联盟社会工程技术学习

    左脑主管言语活动(听、说、读、写)、数学运算、逻辑推理等具有连续性、有序性、分析等功能,是进行抽象思维的中枢,所以这个时候我们需要给对方一个可信的理由。我想你一定有过在外借钱的经验,当你试图询问一个...

  • ICASSP 2022 | 腾讯AI Lab解读14篇入选论文

    使用三种技术自动学习最佳局部精度设置。前两种方法利用基于均方误差 (MSE) 损失函数曲率或在全精度和量化分离模型之间测量的 KL 散度的量化灵敏度度量。第三种方法是基于混合精度的神经架构搜索。 在 LRS3-TED 语料...

Global site tag (gtag.js) - Google Analytics