欢迎您来到陕西博德网络传媒有限责任公司官网!
您现在的位置:西安百度公司 > 新闻动态 > 行业动态 >

百度语音公布四项重大技术突破


在百度输入法发布会现场,百度公布了语音领域的四项重大突破,其中在线语音领域全球首创的流式多级的截断注意力模型(SMLTA),尤为瞩目,打破了注意力模型在语音业界大规模部署的良久沉寂。

众所周知,语音领域Attention模型(注意力模型)的提出已有好几年的时间了。注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖掘出来。这样建模过程,其实是在一句话的一段时间长度是上百帧的连续音频流和十几个汉字识别结果之间,建立了直接基于深度学习的直接映射关系。语音识别过程,也变成了一个字一个字的滚动生成过程。这样的建模完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架。直接实现了语音和文本一体化的端到端建模,从而公认的有更高的建模精度。

近几年,不少专家和学者都在语音识别任务中尝试了注意力模型,实验室环境下,相对于传统技术,也获得到了一系列的提升。但是截止目前,注意力模型在在线语音服务中的大规模使用,一直鲜有成功案例。究其原因,是因为语音识别的注意力模型存在如下的两个问题:

1. 流式解码的问题。传统的Attention模型大都是基于整句的建模,比较有代表性的是谷歌的LAS模型。如果在线语音识别采用整句Attention建模,这就客观上要求语音都上传到服务器后,才能开始声学打分计算和解码,这样势必引入较长的用户等待时间,影响用户体验,同时也没办法完成实时语音交互的任务。一些研究工作虽然能够实现流式注意力模型,也就是说可以一边上传语音,一边根据局部上传的语音片段,来计算注意力模型的得分(比如谷歌的Neural Transducer技术),从而得到部分的识别结果。但是这些技术的模型精度都会低于整句的注意力模型,最终也影响用户体验。

2. 长句建模的精度下降问题。传统注意力模型的核心思想是基于整句的全局信息,通过机器学习的方法,选择出和当前建模单元最匹配的特征。句子越长,进行特征选择的难度越大。出错的概率越高,错误前后传导的概率也越高。

基于以上两个因素,工业界需要一种全新的注意力模型,能够随着语音数据的流式的上传,实现流式的注意力建模和解码,从而减少用户等待识别结果的时间,使得实时的在线语音交互成为可能。同时随着输入语音数据的不停的加长,能够对连续语音流进行截断,保证注意力模型更加聚焦,提升长句语音识别的建模的精度。

百度在业界第一次创新性的提出了流式多级的截断注意力模型SMLTA,这是全世界范围内,第一次基于Attention技术的在线语音识别服务的大规模上线。也是百度AI技术的工业落地,领跑全行业的重要例证。这项技术的四大创新点在于:截断、流式、多级、基于CTC &Attention。

具体而言,是使用CTC(一种语音识别算法)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当前建模单元的注意力建模。这样把原来的全局的整句Attention建模,变成了局部语音小段的Attention的建模。同时,为了克服CTC模型的不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级Attention机制,实现特征层层递进的更精准的特征选择。最终,这种创新的建模方法的识别率不但超越了传统的全局Attention建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。这也是第一次有公开报道,局部的Attention建模,有可能超过全局的Attention建模。

百度已成功将这种注意力模型部署上线到语音输入法全线产品,服务中国数亿用户。这是世界范围内已知的第一次大规模部署的用于在线语音输入的注意力模型。在工程上,实现了低成本上线,所有计算全部通过CPU实现,不需要额外增加GPU,机器的耗费和传统CTC模型相当。最后在输入法精度上,大量数据测试结果显示,相对于原有的Deep peak2的CTC系统,相对准备率提升了15%。

高性能、低功耗,百度这次推出的流式多级的截断注意力模型SMLTA,无疑是中文在线语音识别历史上的又一次突破。

除在线语音领域以外,百度的语音技术还在离线语音、中英混合输入、普通话方言混合输入方面取得了突破。目前百度输入法离线语音输入准确率已高于行业平均水平35%,保证你在没网的情况下实现输入法的流畅快速使用。技术创新还使得百度输入法「中英自由说」成为在完全不影响中文语音输入准确率的情况下,唯一实现高精准的中英文混合语音识输入。「方言自由说」还将普通话和六大方言融合成一个语音识别模型,不单普通话和方言之间不再需要切换,方言和方言之间也不用再切换,随时随地,想咋说咋说。

自2012年以来,百度语音识别技术一直在该领域不断深入探索、创新突破。不单是实现识别准确率的提升,其技术路径的选择亦在引领行业。去年也是在输入法发布会上,百度语音发布的Deep Peak 2模型突破了沿用十几年的传统模型,能够更充分地发挥神经网络模型的参数优势,大幅提升各场景下识别准确率。时隔一年,百度语音技术团队再次实现重大技术创新。

“我们有一个理念,技术只有在产品上使用、让用户真正体验到才是真正的技术,我们绝不会为了技术而技术。”百度语音技术部总监高亮发布会上如是说。

 

在线语音领域,百度发布流式截断多层注意力建模(SMLTA),这是中文在线语音识别历史上的两个重大突破:世界上首次实现了局部注意力建模识别精度超过全局注意力模型;世界上第一次大规模部署在线语音交互注意力模型。这一技术能够解决传统Attention模型在识别中的时延性,以及因此导致的无法进行大规模在线语音实时交互的问题,并将在线语音识别精度提升了15%,超越行业最高水平15%。

离线语音识别领域,为解决用户多元输入场景的需求,百度持续优化Deep Peak 2系统,让离线语音输入相对准确率再次提升,高于行业平均水平35%。即使用户处于地铁、电梯、隧道或人流密集等离线场景中,依然可以借助百度输入法进行精准的语音输入。

中英文混合语音输入技术,以及方言与方言、方言与普通话的混合语音输入技术突破,让用户真正实现“自由说”,无论是中英文夹杂,还是普通话家乡话来回切换,百度输入法都能准确识别。据介绍,百度输入法是目前唯一实现了高精度“中英自由说”和“方言自由说”的输入法产品。

数据显示,截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。同时,百度海外输入法全球安装量超过1亿,支持120种语言,覆盖全球190个国家地区,并已与超过100个全球知名IP达成合作。

发布会上,百度海外输入法展示了日语识别、印地语识别和印英混输功能,据第三方评测显示,百度日文输入法的语音识别精度位列行业第一,识别结果用户可接受度占比高达 90%,已成为日本最大的第三方输入法产品;印度用户语音功能的使用率已达21%,百度输入法帮助印度用户实现了自由沟通。

伴随着百度语音、视觉、自然语言处理、知识图谱等百度AI技术落地输入法,“全感官”的输入变成现实。除了语音输入,百度输入法AI探索版还推出了拍立活、秀场、凌空手写等新功能玩法。无论是心爱的偶像,还是日夜陪伴的宠物,“拍立活”功能都可以让用户通过自己的动作“驱动”对方做出相同表情;“秀场”功能运用图像分割技术,让用户“穿越”到不同的虚拟场景之中,科技、清新、赛博朋克多种风格随意挑选,表情创作更具场景感、更加生活化;凌空手写如同隔空打怪,在空中书写也能被流畅识别,目前整体识别率已达到大规模应用的要求。

百度输入法全感官交互潮流也已进入海外并获得认可。据悉,借助AI技术的加持,百度海外输入法已经在全球建立起活跃的表情社区。超级IP《变形金刚》系列首部独立电影《大黄蜂》已与百度海外输入法联手推出“大黄蜂”系列主题贴图和AR表情。截止目前,百度海外输入法已经和Hello Kitty、小黄鸭、小王子、格林奇等全球100余个知名IP达成合作,推出了一系列深受用户喜爱的IP皮肤和表情,同时深耕本地化运营,针对海外用户还设计了本地网红合作推广等定制化传播。