您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 说话人识别 >

机器人会唇语了!

发布时间:2019-06-07 06:50 来源:未知 编辑:admin

  在一个国际顶级学术会议上,中国搜狗AI公司联合清华大学天工研究院,发表了一份在声音和唇语的多模态语音识别技术上领先的技术报告。

  该报告称,未来AI将可以根据说话人的“唇形+语音”,更精确地识别说话内容。

  我们已经见识过机器人与人类实现对话的场景:大声呼叫SIRI之类的智能机器人的名字,它们就会有所回应,并按要求去完成一些指令。AI的语音识别技术越来越成熟,识别准确率已可达到98%以上。不过,有时它们还是会误会我们所表达的意思,做出让人啼笑皆非的反应。显然,我们需要机器人更准确地理解我们,尤其是在嘈杂环境下。

  对此,研究人员想到的方法是,能不能让AI在听觉基础上,再加上视觉识别,以此提高它们的语音识别准确率。

  人在嘈杂环境下,其实也会很自然地盯紧讲话者的唇形变化,来增加自己对讲话者所表达意思的理解。实际上听力障碍人士,通过讲话者的唇语也可以进行交流。所以搜狗公司早在2017年年底便已经发布过一个唇语识别的初步研究成果——搜狗应该是业内首家公开展示唇语识别的公司——但当时的准确率仅有50%-60%,也没有与语音识别系统强强联手。但很快,该研究团队就将两种识别模式融合起来,开发出新的“多模态”识别方式,最终就有了现在公布的这个“语音+唇语”识别模式。

  所谓的“多模态”识别方式,当然不止是这种音频与视频简单相加的模式。现在的人脸识别其实也是一种“多模态”识别——“静态图片+3D图像”的一种识别方式——这有助于我们理解“多模态融合得越好,识别精确度就越高”的说法。

  “语音+唇语”识别模式也不是简单地把音频和视频的识别叠加起来。从专业上来讲,有两个问题非常关键:首先,音频和视频帧率不同,直接拼接会造成信息损失;其次,在选择音频和视频的“贡献比例”时,并不好把握。比如较安静的情况下应该让语音占主导,在嘈杂环境下则一定是视频占主导,需要根据不同的环境来作出选择。

  搜狗使用了“基于注意力的编码解码器”来解决这个问题。由解码器自动对不同模态的特征表达进行注意力计算,然后对不同模态的信息进行融合。这样不同模态下的“贡献比例”便自然生成了不同的数值。当然,这个融合模型的设计是整个研究中最困难的一步。但实验结果证实了所有设计的成功——在嘈杂环境下,这个搜狗的“多模态”识别准确率的确比单纯的语音识别大为提高,而且加入视频识别,AI还能根据唇形来识别语句在何处结束。

  研究人员表示,预计这套“多模态”识别模式首先会在搜狗的手机输入法中集成,然后会出现在一些合作品牌的汽车车内的麦克风、摄像头中实际使用。未来视频识别的场景还会更多。搜狗方面认为,“多模态”识别模式是未来研究发展的一个必然趋势。

http://lenjproductions.com/shuohuarenshibie/172.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有