当前位置:首页 > 安防资讯 > 安防业界

搜狗推“唇语识别”从此不再打哑谜

12月14日,搜狗就公开推出了人机交互新技术——唇语识别,不用听声音,也能知晓你在说什么。究竟是怎么一回事呢?跟着华强智慧网小编一起来看看吧。

何为唇语识别?

唇语识别与语音识别有所不同,是基于计算机视觉和自然语言处理与一体的技术。因此,难度会比语音识别大很多。据相关报道,这是业内首个公开示演的唇语识别系统,垂直领域下高达90%的准确率。

这得益于搜狗在自然语言处理方面的强大优势,搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,建立了10万词以上的词汇表,取得业界领先的唇语识别效果。

论唇语识别能力的差异:

正常人:10%左右

训练过的聋哑人:40%左右

谷歌英文唇语系统识别:50%左右

搜狗唇语识别率:60%左右

此外,搜狗在其深耕的车载以及智能家居场景下更是高达90%的准确率。但是,这么厉害的唇语识别,目前来说其实也只是一个辅助。

语音识别的强力辅助

为何是辅助?很简单!语音识别实在是太火了。从智能音箱的竞争上就可以看出,各大巨头之间的竞争早已是一片红海了。

竞争推动技术的发展,所以说语音识别的技术已经相当成熟了,各企业几乎都可以在近场达到95%的准确率。但其痛点也很明显,那就是距离。一旦距离拉远,准确率就会大大的降低。

为了解决这一痛点目前大部分企业采取的技术是通过麦克风阵列来进行远场环境下的噪声等处理。但搜狗有不一样的想法:何不直面噪音等环境因素的影响,直接无声提取信息呢?

搜狗的技术总监陈伟表示,研发唇语识别的动机就是把语音识别和唇语识别做到很好的结合,让唇语识别起到辅助作用。尽管现在唇语识别准确率还不是很高,但在一些限定的场景,或许可以起到很好的辅助作用,进一步提升远场语音交互的准确性。

唇语识别之痛——泛性化

虽然唇语识别定义为辅助位置,但其依旧逃不脱泛性化这一问题。要知道,中华文化源远流长,中文语言也被号称是最难学的一门语言。往往一个唇语动作对应了多个发音单元。如:zang/can

除了电视台主持人发音唇形较为标准外,普通人发音唇形差异就很大了。毕竟,十里不同音可是生活中真实的写照呢,发音的不同,随之的唇形也不同。搜狗也针对此痛点进行不断的优化改进,针对不同的人群,不同的场景进行训练,提升唇语识别的泛化效果,争取早日落实到实际应用场景中来。

唇语识别除了在辅助语音识别这一方面之外,还有这两大领域的应用也值得期待。

安防领域:监控已经普及开来,但很多监控室没有麦克风的,很多时候能够看到嘴型,却不知道在说什么。唇语识别的应用,可以获取重要的讲话信息,为公共安全提供有效的支持。

公益领域:对于先天性听障人群来说,唇语识别的应用绝对是有着巨大价值的,能够让他们更好的理解和表达自己,同样也适用于老年人。

华强智慧网小编

无论是何种技术,只有实际的应用落地之后,才能显示其价值所在。

唇语识别因其准确率的原因,落地还尚需时间。但作为辅助角色解决语音识别远场环境下的痛点,走向实际应用还是很有可能的,且未来还可以延伸至安防以及公益领域的应用,十分令人期待。

来源:华强智慧网     编辑:     热度:  
更多.
工具资料
安防技术
热点资讯

更多.最新内容

更多.热门关注