欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍

发布时间:2023-01-17 文章来源:本站  浏览次数:2406

阿里达摩院,又搞事儿了。

这两天,它们发布了一个全新的语音辨认模型:

Paraformer。

开发人员直抒己见:这是咱们“杀手锏”级的作品。

——不只辨认精确率“屠榜”几大威望数据集,一路SOTA,推理功率上比较传统模型,也高可提高10倍。

值得一提的是,Paraformer刚宣布就现已开源了。

语音输入法、智能客服、车载导航、会议纪要等场景,它都能够hold住。

怎么做到的?

Paraformer:从自回归到非自回归

咱们知道语音一直是人机交互重要研究领域。

而当时语音辨认根底结构已从初杂乱的混合语音辨认系统,演变为高效便捷的端到端语音辨认系统。

其中具代表性的模型当属自回归端到端模型Transformer,它能够在辨认过程中需逐一生成方针文字,实现了较高精确率。

不过Transformer核算并行度低,无法高效结合GPU进行推理。

针对该问题,学术界近年曾提出并行输出方针文字的非自回归模型。

可是这种模型也存在着建模难度和核算杂乱度高,精确率有待提高的问题。

达摩院本次推出的Paraformer,初次在工业级运用层面解决了端到端辨认作用与功率统筹的难题。

它归于单轮非自回归模型

对于这一类模型,现有作业往往聚焦于如何愈加精确地猜测方针文字个数,如较为典型的Mask CTC,选用CTC猜测输出文字个数。

但考虑到现实运用中,语速、口音、静音以及噪声等因素的影响,如何精确的猜测方针文字个数以及抽取方针文字对应的声学隐变量仍然是一个比较大的应战。

另外一方面,经过比照自回归模型与单轮非自回归模型在工业大数据上的过错类型(如下图所示,AR与vanilla NAR),我们发现比较于自回归模型,非自回归模型在猜测方针文字个数(插入过错+删除过错)方面差距较小,可是替换过错显著的添加。

阿里达摩院以为这是因为单轮非自回归模型中条件独立假设导致的语义信息丢掉。与此一起,现在非自回归模型主要停留在学术验证阶段,还没有工业大数据上的相关实验与定论。

Paraformer是如何做的呢?

针对第一个问题,阿里达摩院选用一个猜测器(Predictor)来猜测文字个数并经过Continuous integrate-and-fire (CIF)机制来抽取文字对应的声学隐变量。

针对第二个问题,受启发于机器翻译领域中的Glancing language model(GLM),他们规划了一个根据GLM的 Sampler模块来增强模型对上下文语义的建模。

除此之外,团队还规划了一种生成负样本策略来引进MWER区分性练习。

终究,Paraformer由Encoder、Predictor、Sampler、Decoder与Loss function五部分组成。

核心点主要包含以下几点:

  • Predictor模块:根据CIF 的Predictor 猜测语音中方针文字个数以及抽取方针文字对应的声学特征向量;
  • Sampler:经过采样,将声学特征向量与方针文字向量变换成含有语义信息的特征向量,合作双向的Decoder来增强模型对于上下文的建模才能;
  • 根据负样本采样的MWER练习原则。

作用SOTA,推理功率高提10倍

终究,在学术界常用的中文辨认评测使命AISHELL-1、AISHELL-2及WenetSpeech等测验集上, Paraformer-large模型均获得了优作用。

在AISHELL-1上,Paraformer在现在揭露宣布论文中,为功能(辨认作用&核算杂乱度)优的非自回归模型,且Paraformer-large模型的辨认精确率远远超于现在揭露宣布论文中的结果(dev/test:1.75/1.95)。

在专业的第三方全网公共云中文语音辨认评测SpeechIO TIOBE白盒测验中,Paraformer-large辨认精确率超越98%,是现在揭露测评中精确率高的中文语音辨认模型。

合作GPU推理,不同版本的Paraformer可将推理功率提高5~10倍。

一起,Paraformer运用了6倍下采样的低帧率建模计划,可将核算量下降近6倍,支持大模型的高效推理。

终的终,欢迎各位开发者下载Paraformer并留言反应模型运用感受~

量子位将赠送3张阿里研发的会议纪要产品“听悟”特邀用户年度权益卡,每天可运用离线语音/视频转写10小时+实时转写8小时,高价值超万元!

上一条:腾讯提早退租朗科大厦是因...

下一条:支付宝现已支撑绑定境外银...