欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

中国电信公布国际专利申请:“3D数字人唇形驱动办法、装置、电子设备及存储介质”

发布时间:2024-06-29 文章来源:本站  浏览次数:1863
证券之星消息,根据企查查数据显示,中国电信(601728)公布了一项国际专利申请,专利名为“3D 数字人唇形驱动方法、装置、电子设备及存储介质”,专利申请号为 PCT/CN2023/140585,国际公布日为 2024 年 6 月 27 日。


该专利方法包括:获取输入的文本信息;基于从文本到语音 TTS 技术,将文本信息转化为音素序列、音频数据和时间戳信息(其中时间戳信息包含音素序列中各个元素的时间戳);根据时间戳信息,对音素序列中相应的静音音素进行删除处理,对删除处理后的音素序列进行预设倍数采样,得到 bs 动画系数序列;根据 bs 动画系数序列、音频数据、预设音素唇形映射表以及特殊音素的预设优化,渲染生成 3D 数字人的唇形动画。其中预设音素唇形映射表包含多种音素与 3D 数字人唇形之间的映射关系,特殊音素包括双唇音、唇齿音和齿擦音。


今年以来中国电信已公布的国际专利申请 116 个,较去年同期增加了 87.1%。结合公司 2023 年年报财务数据,2023 年公司在研发方面投入了 130.52 亿元,同比增 23.59%。


这种 3D 数字人唇形驱动方法提高了 3D 数字人唇形驱动的鲁棒性与流畅度,具体来说,通过构建预设音素唇形映射表、对音素序列进行处理和特殊音素优化等操作,可以使生成的 3D 数字人唇形动画更加自然和准确,减少对大量训练数据的依赖,并且能够更好地应对各种情况,提高唇形驱动的效果和稳定性。


特殊音素的预设优化方式举例如下:设置 3D 数字人在双唇音(如 b、p、m 等)发音前,上嘴唇与下嘴唇接触;在唇齿音(如 f、v 等)发音前,下嘴唇触碰上牙齿;在齿擦音(如 z、c、s、j、q、x、zh、ch、sh 等)发音时,上下牙齿之间的距离满足预设距离。


在渲染生成唇形动画之前,可能还会对 bs 动画系数序列进行三次样条差值采样、衰减、平滑处理,或者在其预设位置添加静音音素后再进行平滑处理等操作。


该技术在虚拟数字人、人机交互、影视娱乐等领域可能具有广泛的应用前景,例如可以为虚拟客服、虚拟主播等提供更加自然和逼真的唇形表现,提升用户体验。同时,也有助于推动相关产业的发展和创新。具体的应用方式和效果可能还需要根据实际情况进行进一步的开发和优化。

上一条:在英中资企业代表探讨如何...

下一条:“红衣教主”周鸿祎谈AI...