搜狗推出「唇语识别」技术:不出声也能「听」懂你
12 月 14 日,搜狗正式推出全新的人机交互新技术——唇语识别,这也是业内首个公开演示的唇语识别系统,通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。 与已有的语音识别产品不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此在研发难度上比语音识别大得多。
搜狗语音交互中心技术总监陈伟表示,搜狗的唇语识别技术首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,加上搜狗在自然语言处理方面的强大优势,最终取得了业界领先的唇语识别效果。按照搜狗方面提供的数据显示,在非特定人开放口语测试集上,搜狗唇语识别系统已经达到 60% 以上的准确率,超过 google 发布的英文唇语系统 50% 以上的准确率,在垂直场景如车载、智能家居等场景下甚至已经达到 90% 的准确率。