分类 二、深度学习 下的文章

一、数字人定义

数字人是指以数字形式存在于数字空间中,具有拟人或真人的外貌、行为和特点的虚拟人物,也称之为虚拟形象、数字虚拟人、虚拟数字人等。数字人的核心技术 主要包括计算机图形学、动作捕捉、图像渲染、AI等。数字人可以打造更完美的人设,为品牌带来正向价值。互联网、金融、电商平台、消费品牌、汽车出行等领 域纷纷推出数字人,用于品牌营销、智能客服等方向。

二、数字人分类

数字人可以按照不同维度进行分类。

1.人物图形资源的维度

数字人可分为2D和3D两大类,2D、2.5D、3D这三种,2D是最常见的用一段语音去驱动一张照片,2.5D比2D多一些肢体动作,3D是UE建模

2.外形上

可分为2D真人、2D卡通、3D卡通、3D风格化、3D写实、3D超写实、3D高保真等多种。

写实和风格化之间的显著区别是,写实你被限制使事物看起来“真实”,就是要强化他们的视觉语言。风格化里您可以自由发挥的形状和颜色,夸大或删除细节,在任何方向增强外观和感觉。这样做将打破现实的幻觉,因为它不再被视写实的,它将不属于我们的世界。
bdc_r.jpg
c225c2ec.png

3.驱动的维度

可分为真人驱动和AI驱动两种。 根据商业和功能维度,可分为内容/IP型、功能服务型和虚拟分身等三种。

三、技术开发流程

1.人物形象采集(视频采集/3D扫描)

(1)人物建模
建模技术发展推动外貌更接近人的超写实数字人制作
门槛和周期进一步下降
(2)物理仿真
物理仿真算法迭代推动服装动态展示趋向真实

(3)人物渲染
渲染引擎的迭代发展和GPU算力的提升推动数字人渲
染画面更加精细和实时化

(4)声音建模

1.素材采集

(1)图片采集
(2)视频采集
(3)声音采集

2.素材清洗

(1)视频降噪
(2)音频降噪
(2)背景分离
(3)人物提取

3.数字人建模

(1)动作捕捉模型
肢体动作建模

(2)面捕模型
面部捕捉技术向更简单的硬件、更细腻的表情、更自动化的流程方向发展
(3)嘴型模型
嘴型和音频映射建模
(4)ASR模型
音频与文本建模
(5)AI驱动模型
AI驱动算法,通过语音驱动肢体动作、面部表情、嘴型细节关联映射,数据进行模型
训练,得到相关模型,并智能合成

4.结果合成

(1)图像合成模型
(2)语音合成
(3)视频合成
(4)3D渲染

四、开源算法

1.Gan方案的

(1) Wav2Lip:

优缺点:开源可复现
https://github.com/Rudrabha/Wav2Lip

(2)PaddleBoBo :不推荐

优缺点:使用的Wav2Lip,只能在woindows系统
https://github.com/JiehangXie/PaddleBoBo

2.Diffusion

DiffTalk:https://github.com/sstzal/DiffTalk
DiffusionVideoEditing:https://github.com/DanBigioi/DiffusionVideoEditing

3.Nerf

RAD-NeRF:https://github.com/ashawkey/RAD-NeRF

ER-NeRF: https://github.com/Fictionarry/ER-NeRF/tree/main

AD-NeRF: https://github.com/YudongGuo/AD

https://github.com/OpenTalker/video-retalking

其他开源方案:
https://github.com/OpenTalker/video-retalking
https://juejin.cn/post/7199809805363789882

参考:
http://www.ffner.com/2023726140734-9286.html?11
https://zhuanlan.zhihu.com/p/648734603
https://zhuanlan.zhihu.com/p/656328699

1.MiniGPT-5

1.5 CLIP
1.8 PLIP

2.BLIP
3.BLIP-2

参考内容:
1.https://www.bilibili.com/read/cv25429299/

>> X光影像路径:./data/Xray/861_1.png

>> 用户:这是一张什么图?
>> XrayGLM:这张图片显示的是一张肺部检查的X光片。

>> 用户:请描述这张胸部X光片的诊断结果
>> XrayGLM:心脏大小正常,肺部清晰。没有急性心肺疾病的证据。

>> 用户:是否存在肺气肿?
>> XrayGLM:没有肺气肿。心脏大小正常,肺部清晰。没有发现急性心肺疾病的证据。

>> 用户:平时饮食该注意什么?
>> XrayGLM:饮食应该健康,均衡。建议增加蛋白质的摄入量,
因为蛋白质有助于维持肌肉和骨骼的健康。多食用蔬菜、水果、
全谷物以及健康的脂肪来源如橄榄油、鱼类等可以帮助获得足
够的维生素和矿物质。此外,避免过度饮酒或吸烟,这些习惯
可能会对心脏健康产生负面影响。

至于如何评估一个模型的好坏:MTEB Leaderboard - a Hugging Face Space by mteb (https://huggingface.co/spaces/mteb/leaderboard)是针对大规模文本表示学习方法的一个评测排行榜。这个排行榜会将文本向量化模型在大量的评测数据集:文本分类,聚类,文本排序,文本召回等大量数据集上进行评测,并给出一个平均的分数,来评估这个模型文本embeding的能力。

生成模型(Generative Model)与判别模型(Discriminative Model)在机器学习领域是两种不同类型的模型,它们之间存在着显著的差异。以下是对这两种模型区别的详细分析:

一、定义与目的

生成模型:生成模型是概率统计和机器学习中的一类重要模型,指一系列用于随机生成可观测数据的模型。在给定某些隐含参数的条件下,它能够随机生成观测数据,并给观测值和标注数据序列指定一个联合概率分布。生成模型的应用十分广泛,可以用来对不同的数据进行建模,如图像、文本、声音等。
判别模型:判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,直接对条件概率p(y|x;θ)建模。在机器学习领域,判别模型是一种基于概率理论的方法,已知输入变量x,通过构建条件概率分布P(y|x)来预测y。

二、主要区别

1、优化准则不同
生成模型:优化训练数据的联合分布概率P(X,Y)。
判别模型:优化训练数据的条件分布概率P(Y|X)。
2、对观察序列的处理不同
生成模型:将观察序列作为模型的一部分。
判别模型:将观察序列仅作为条件。
3、训练复杂度
由于需要归一化,判别模型的训练复杂度通常较高。
生成模型的训练复杂度相对较低。
4、是否支持无指导训练
生成模型支持无指导训练,即可以在没有标签数据的情况下进行训练。
判别模型通常不支持无指导训练,它依赖于标签数据来构建条件概率分布。
5、本质区别
判别模型:估计的是条件概率分布p(class|context),即给定观测数据x,模型预测目标变量y的条件概率。
生成模型:估计的是联合概率分布p(x,y),即同时考虑观测数据x和目标变量y的联合分布。
6、模型应用
生成模型:由于能够模拟数据的生成过程,因此在无监督学习任务(如聚类、异常检测)中表现较好。同时,生成模型在刻画复杂学习任务中的依赖关系方面也更加灵活。
判别模型:由于直接对条件概率建模,因此在有监督学习任务(如分类、回归)中通常能够取得更好的效果。特别是当不考虑x与y之间的联合分布时,判别模型可以更加专注于学习x到y的映射关系。
三、典型模型
生成模型:高斯混合模型(Gaussian Mixture Model, GMM)、隐马尔可夫模型(Hidden Markov Model, HMM)、朴素贝叶斯分类器(Naive Bayes Classifier)等。
判别模型:线性回归模型、线性判别分析(Linear Discriminant Analysis, LDA)、支持向量机(Support Vector Machine, SVM)、神经网络(Neural Network, NN)等。
综上所述,生成模型和判别模型在定义、优化准则、对观察序列的处理、训练复杂度、是否支持无指导训练以及模型应用等方面都存在显著的差异。选择哪种模型取决于具体的应用场景和需求。