使用机器学习技术提高读唇准确性

2顶
0踩

2016-03-31 09:47 by 副主编 mengyidan1988 评论(0) 有5081人浏览

机器学习

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

对于人类读唇者来说，在剥离音频线索的情况下，语境是破译文字的关键。但是英国东英吉利大学（UEA）开发的一种技术模型可以比人类读唇者以更高的准确性来解释嘴里说出的词语，这要归功于使用了机器学习技术将声音从视觉方面进行分类。而且算法并不需要知道对话的语境就能够识别出你使用的词语。

然而此模型仍然处于研究阶段，对于自动将视觉线索转换成准确话语技术方面还有许多潜在应用——无论是在帮助有听觉障碍的人方面，还是在使用额外语音数据来增加无声视频片段方面——甚至是在比赛高潮找到足球运动员说的最多的词……

这种技术也可以在移动或视频通话语音质量不佳的情况下，作为后备使用。或是自动化字幕。或者是在带有摄像头的手机上启动”语音”助手，你不需要真正发声，只需用唇语命令（这会有多么酷？）。肯定地说，机器驱动的读唇应用数量浩如烟海。因此，只要研究人员可以发掘它的优势，那么它未来的潜力将不可限量。

开发这套读唇机器学习模型的UEA团队正在使用纯视觉输入——那么就可以在没有任何音频输入的情况下，通过嘴唇发声时的形状来训练模型。

Helen Bear博士表示，“我们正在寻找视觉线索，判断它们是如何变化的？我们知道它们因人的不同而不同。人们是如何使用它们的？又有什么区别？以及我们是否能够在我们的模型中使用这种特殊训练方法中的知识？我们可以这么做”。她在UEA计算机科学学院教授Richard Harvey的指导下，在她的博士论文中对视觉语音识别技术模型进行了论述。

她补充说，“读唇机器背后的理念是，机器本身没有情感，它不介意理解是否正确或错误——它只是努力学习。所以在论文中……我已经展示了如何使用这些视觉困惑做出更好的音素分类器。所以这是种新的训练方法”。

Bear博士注意到，目前许多读唇方面的研究使用音频和视觉线索来提高机器读唇的准确性。因此UEA模型脱颖而出，它只关注视觉讲话，想尽一切办法提高机器驱动的嘴唇阅读。

“我们假装根本没有音频信号”，她说，“我们的想法是，这个系统可以只能读唇，或者它可以用在视听系统中，希望在某天视听系统能使用到，当重新获得音频信号之前，只处理视觉信号，比如，如果你在Skype上与人视频，突然音频信号丢失了，而你仍然可以看到对方。”

对于一般读唇技术的核心挑战是——至少对于人类肉眼来说——比起人类发出的声音来说，视觉线索要少。容易混淆的具有相似嘴型的发音有‘/p/’，‘/b/’，和‘/m/’，它们都会对人类读唇者造成困难。然而UEA的视觉语音模型可以更好的区分这些视觉上相似的唇形。

Bear博士表示，“‘/p/’，‘/b/’，和‘/m/’之间的唇形是有些区别的，但是人类很难发现，不过如果使用机器的话，我们可以发现的确有不同之处，我们的识别器在这方面效果更佳。”

在讨论训练技巧时，她说，“如果我试图建立一个只识别/p/声音的分类器，我会做的是，首先在所有看上去相同的声音上训练。然后我们通过针对/p/声音做更多的迭代训练来改善训练”。

她补充道，“我们实际上是在学习、理解这些视觉单元的意义，以及它们如何根据不同的人而改变，我们已经使用这种知识来改变传统的读唇系统，并使之更好。这是很显著的进步”。

Bear博士表示，“更好”仍然是相对而言——读唇的准确率一直很低。模型识别一个词语的准确率为10%到20%（即正确识别一个词），尽管她强调比猜还是要高许多。她补充道，在一句话中，它显然更容易从全部文字里区分感官。

她对TechCrunch说，“说实话，我们不能100%肯定（这为什么起作用），我们只知道使用特殊的分类器，如果我们用正确的方式、正确的数据来训练它们，它们不会有任何偏差”。

“这里复杂的是理解为什么视觉语音复杂，这一问题比回答为什么我们可以使用机器学习得到更好结果要困难的多。我们知道机器学习一直在演变，我们会得到不同类型的分类器……但询问它们在学习什么，视觉语音如何，它差异多大，以及我们如何控制这些变量，这些都是难以回答的问题。”

当被问及距这项研究在应用程序中商业化还有多远时，她打趣道：“如果我在谷歌工作可能会很快！”，把这项研究商业化可能需要几年时间。

他说，“我们仍然还有东西需要学习和理解”，这项研究就像是连锁的语言模型，机器需要具备这些来熟练准确地从推特中抓取数据，这就会是读唇的转折点。

另外值得一提的是，UEA模型只处理英语。因此，在应用程序中使用读唇技术所面临的挑战还是不容低估的。

UEA可以与其他语言预测技术结合使用吗？——比如基于下个词语预测技术的机器学习——以此进一步增强读唇能力。“这正是我愿意做的”，她说，“往我们的模型中加入一些健壮的东西是非常棒的，但这也需要更多的时间。它不会马上推出”。

Bear博士将在本周五于上海举行的国际声学、语音和信号处理会议上展示她的研究成果，她的论文——Decoding visemes: Improving machine lip-reading ——也将公布。这项研究来自于一个为期三年的项目，由工程和物理科学研究理事会资助。

原文链接：Machine learning technique boosts lip-reading accuracy
译者：刘翔宇审校：赵屹华
责编：周建丁

分享到：