一、数字人定义

数字人是指以数字形式存在于数字空间中,具有拟人或真人的外貌、行为和特点的虚拟人物,也称之为虚拟形象、数字虚拟人、虚拟数字人等。数字人的核心技术 主要包括计算机图形学、动作捕捉、图像渲染、AI等。数字人可以打造更完美的人设,为品牌带来正向价值。互联网、金融、电商平台、消费品牌、汽车出行等领 域纷纷推出数字人,用于品牌营销、智能客服等方向。

二、数字人分类

数字人可以按照不同维度进行分类。

1.人物图形资源的维度

数字人可分为2D和3D两大类,2D、2.5D、3D这三种,2D是最常见的用一段语音去驱动一张照片,2.5D比2D多一些肢体动作,3D是UE建模

2.外形上

可分为2D真人、2D卡通、3D卡通、3D风格化、3D写实、3D超写实、3D高保真等多种。

写实和风格化之间的显著区别是,写实你被限制使事物看起来“真实”,就是要强化他们的视觉语言。风格化里您可以自由发挥的形状和颜色,夸大或删除细节,在任何方向增强外观和感觉。这样做将打破现实的幻觉,因为它不再被视写实的,它将不属于我们的世界。
bdc_r.jpg
c225c2ec.png

3.驱动的维度

可分为真人驱动和AI驱动两种。 根据商业和功能维度,可分为内容/IP型、功能服务型和虚拟分身等三种。

三、技术开发流程

1.人物形象采集(视频采集/3D扫描)

(1)人物建模
建模技术发展推动外貌更接近人的超写实数字人制作
门槛和周期进一步下降
(2)物理仿真
物理仿真算法迭代推动服装动态展示趋向真实

(3)人物渲染
渲染引擎的迭代发展和GPU算力的提升推动数字人渲
染画面更加精细和实时化

(4)声音建模

1.素材采集

(1)图片采集
(2)视频采集
(3)声音采集

2.素材清洗

(1)视频降噪
(2)音频降噪
(2)背景分离
(3)人物提取

3.数字人建模

(1)动作捕捉模型
肢体动作建模

(2)面捕模型
面部捕捉技术向更简单的硬件、更细腻的表情、更自动化的流程方向发展
(3)嘴型模型
嘴型和音频映射建模
(4)ASR模型
音频与文本建模
(5)AI驱动模型
AI驱动算法,通过语音驱动肢体动作、面部表情、嘴型细节关联映射,数据进行模型
训练,得到相关模型,并智能合成

4.结果合成

(1)图像合成模型
(2)语音合成
(3)视频合成
(4)3D渲染

四、开源算法

1.Gan方案的

(1) Wav2Lip:

优缺点:开源可复现
https://github.com/Rudrabha/Wav2Lip

(2)PaddleBoBo :不推荐

优缺点:使用的Wav2Lip,只能在woindows系统
https://github.com/JiehangXie/PaddleBoBo

2.Diffusion

DiffTalk:https://github.com/sstzal/DiffTalk
DiffusionVideoEditing:https://github.com/DanBigioi/DiffusionVideoEditing

3.Nerf

RAD-NeRF:https://github.com/ashawkey/RAD-NeRF

ER-NeRF: https://github.com/Fictionarry/ER-NeRF/tree/main

AD-NeRF: https://github.com/YudongGuo/AD

https://github.com/OpenTalker/video-retalking

其他开源方案:
https://github.com/OpenTalker/video-retalking
https://juejin.cn/post/7199809805363789882

参考:
http://www.ffner.com/2023726140734-9286.html?11
https://zhuanlan.zhihu.com/p/648734603
https://zhuanlan.zhihu.com/p/656328699

标签: none

添加新评论