球速体育新闻
球速体育(QIUSU)官方网站-BallSpeed Sports(访问: hash.cyou 领取999USDT)
2、3.01) G06N 3/09(2023.01) (54)发明名称 一种视频美妆迁移方法及系统 (57)摘要 本发明提出一种视频美妆迁移方法, 包括: 给定一段人脸视频帧序列, 估计视频的相机内参 以及每帧对应的姿态、 表情等参数构建为数据 集; 将该数据集输入至动态神经辐射场网络, 显 式控制人脸姿态表情, 隐式重建三维人脸, 得到 人脸空间的密度及颜色信息; 固定人脸密度预测 模块, 重新训练颜色预测模块, 并用混合人脸损 失函数和密集关键点颜色损失函数进行监督; 引 入基于纹理图的图像块判别器进行判别, 训练收 敛得到妆容迁移后的美妆人脸神经辐射场。 本发 明还提出一种视频美妆迁移系统,。
3、 以及一种用于 实现基于美妆参考图像对人脸视频的视频美妆 迁移的数据处理装置。 权利要求书4页 说明书11页 附图5页 CN 115689869 A 2023.02.03 CN 115689869 A 1.一种视频美妆迁移方法, 其特征在于, 包括: 步骤1, 获取人脸视频的视频帧序列、 拍摄该人脸视频的相机的内部参数以及每张视频 帧中人脸的姿态参数和表情参数, 构建为第一数据集; 步骤2, 构建包括密度预测模块和颜色预测模块的动态神经辐射场网络, 以该第一数据 集对该动态神经辐射场网络进行训练至收敛, 获得隐式重建该人脸视频的神经辐射场网 络; 步骤3, 固定步骤2中完成训练的密度预测模块,。
4、 基于美妆参考图像生成该人脸视频图 像的伪美妆迁移结果, 构建为第二数据集; 以该第二数据集对该颜色预测模块进行重新训 练至收敛, 使用混合人脸损失函数和密集关键点颜色损失函数进行监督, 通过纹理图块判 别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差; 步骤4, 以完成训练的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆 人脸神经辐射场。 2.如权利要求1所述的视频美妆迁移方法, 其特征在于, 步骤2中, 在某一视频帧的图像 上, 将相机位置与图像上的像素点相连, 构成光线射线, 在光线上选取采样点, 将该采样点 对应的位置数据和角度数据分别输入动态神经辐射场网络进行训练;。
5、 该动态神经辐射场网络包括粗网络和精细网络的可学习权重为 coarse, 的可学习权重为 fine; 该动态神经辐射场网络的损失函数为 其中, Li( )jCIij2, Iij表示视频帧i对应图像I的像素点j的RGB颜色值, C 为该像素点的网络预测RGB颜色值, N为视频帧图像的数量; 训练过程中, 首先训练以获得该神经辐射场的密度信息, 然后将该密度信息提供 给并将在密度大于采集阈值的采样点附近再选取多个新采样点对进行训练; 通 过训练收敛的获得能重建视频帧所有图像的网络。 3.如权利要求1所述的视频美妆迁移方法, 其特征在于, 步骤3中, 首先将美妆参考图像 x基于参考图和目标图的人。
6、脸关键点对应进行人脸变形, 并将变形结果贴合到视频帧图像 yi上, 并利用泊松融合与原图像融合, 生成具有目标美妆分布的伪美妆图像其中i代表 视频的第i帧图像; 对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数Lhybrid和密集关键点 颜色损失函数Ldense进行监督, 对该颜色预测模块训练收敛后, 得到yi基于x的美妆迁移结果 其中, 权利要求书 1/4 页 2 CN 115689869 A 2 K为从和中裁剪出的包含关键面部特征的关键图像块gk的数量, pk表示该关键图 像块的伪真值, nk表示该关键图像块未上妆前的原始图像,表示关键图像块的损失函 数在Lhybrid中的比重,表。
7、示该关键图像块中脸部皮肤区域的伪真值,表示该脸部皮肤 区域的美妆迁移结果,表示该脸部皮肤区域的损失函数在Lhybrid中的比重, M为脸部区域 关键图像块的数量, peye,lip表示该关键图像块中眼睛和嘴唇部分的伪真值, geye,lip表示该眼 睛和嘴唇部分的美妆迁移结果, optional表示该眼睛和嘴唇部分的损失函数在Lhybrid中所占 的比重,是从图像提取第d个密集人脸关键点颜色的操作, 表示整张人脸的美妆迁移 结果, x是美妆参考图像, D是人脸关键点的数量。 4.如权利要求1所述的视频美妆迁移方法, 其特征在于, 对该颜色预测模块进行重新训 练的过程中, 以和xuv作为该纹理图。
8、块鉴别器的输入, 从和xuv的固定关键点位置中裁 取块进行误差判别; 其中,为该人脸视频的美妆迁移结果yX的UV纹理贴图, xuv为美妆参 考图像x的UV纹理贴图。 5.一种视频美妆迁移系统, 其特征在于, 包括: 数据获取模块, 用于获取人脸视频的视频帧序列、 拍摄该人脸视频的相机的内部参数 以及每张视频帧中人脸的姿态参数和表情参数, 构建为第一数据集; 人脸模型获取模块, 用于构建包括密度预测模块和颜色预测模块的动态神经辐射场网 络, 以该第一数据集对该动态神经辐射场网络进行训练至收敛, 获得隐式重建该人脸视频 的神经辐射场网络; 美妆结果获取模块, 用于固定通过人脸模型获取模块得到的完成。
9、训练的密度预测模 块, 基于美妆参考图像生成该人脸视频图像的伪美妆迁移结果, 构建为第二数据集; 以该第 二数据集对该颜色预测模块进行重新训练至收敛, 使用混合人脸损失函数和密集关键点颜 色损失函数进行监督, 通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆 参考图像的误差; 神经辐射场获取模块, 用于以完成训练的动态神经辐射场网络为该人脸视频基于该美 妆参考图像的美妆人脸神经辐射场。 6.如权利要求5所述的视频美妆迁移系统, 其特征在于, 在某一视频帧的图像上, 将相 机位置与图像上的像素点相连, 构成光线射线, 在光线上选取采样点, 将该采样点对应的位 置数据和角度数据分别输入动。
10、态神经辐射场网络进行训练; 该动态神经辐射场网络包括粗网络和精细网络的可学习权重为 权利要求书 2/4 页 3 CN 115689869 A 3 coarse, 的可学习权重为 fine; 该动态神经辐射场网络的损失函数为 其中, Li( )jCIij2, Iij表示视频帧i对应图像I的像素点j的RGB颜色值, C 为该像素点的网络预测RGB颜色值, N为视频帧图像的数量; 训练过程中, 首先训练以获得该神经辐射场的密度信息, 然后将该密度信息提 供给并将在密度大于采集阈值的采样点附近再选取多个新采样点对进行训练; 通过训练收敛的获得能重建视频帧所有图像的网络。 7.如权利要求6所述的视频。
11、美妆迁移系统, 其特征在于, 该美妆结果获取模块中, 首先 将美妆参考图像x基于参考图和目标图的人脸关键点对应进行人脸变形, 并将变形结果贴 合到视频帧图像yi上, 并利用泊松融合与原图像融合, 生成具有目标美妆分布的伪美妆图 像其中i代表视频的第i帧图像; 对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数Lhybrid和密集关键点 颜色损失函数Ldense进行监督, 对该颜色预测模块训练收敛后, 得到yi基于x的美妆迁移结果 其中, K为从和中裁剪出的包含关键面部特征的关键图像块gk的数量, pk表示该关键图 像块的伪真值, nk表示该关键图像块未上妆前的原始图像,表示关键图像块的损。
12、失函 数在Lhybrid中的比重,表示该关键图像块中脸部皮肤区域的伪真值,表示该脸部皮肤 区域的美妆迁移结果,表示该脸部皮肤区域的损失函数在Lhybrid中的比重, M为脸部区域 关键图像块的数量, peye,lip表示该关键图像块中眼睛和嘴唇部分的伪真值, geye,lip表示该眼 睛和嘴唇部分的美妆迁移结果, optional表示该眼睛和嘴唇部分的损失函数在Lhybrid中所占 的比重,是从图像提取第d个密集人脸关键点颜色的操作, 表示整张人脸的美妆迁移 结果, x是美妆参考图像, D是人脸关键点的数量。 8.如权利要求5所述的视频美妆迁移系统, 其特征在于, 美妆结果获取模块还包括: 块。
13、鉴别模块, 用于以和xuv作为该纹理图块鉴别器的输入, 从和xuv的固定关键点 权利要求书 3/4 页 4 CN 115689869 A 4 位置中裁取块进行误差判别; 其中,为该人脸视频的美妆迁移结果yX的UV纹理贴图, xuv 为美妆参考图像x的UV纹理贴图。 9.一种计算机可读存储介质, 存储有计算机可执行指令, 其特征在于, 当该计算机可执 行指令被执行时, 实现如权利要求14任一项所述的视频美妆迁移方法。 10.一种数据处理装置, 包括如权利要求9所述的计算机可读存储介质, 当该数据处理 装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时, 实现基于美妆 参考图像对人脸。
14、视频的视频美妆迁移。 权利要求书 4/4 页 5 CN 115689869 A 5 一种视频美妆迁移方法及系统 技术领域 0001 本发明涉及计算机图形学以及深度学习领域, 特别涉及一种基于神经辐射场和纹 理图块判别器的美妆迁移人脸视频的合成方法及系统。 背景技术 0002 近年来, 深度神经网络在人脸图像合成方面取得了显著进展。 许多工作致力于通 过模拟物理场景的变化, 如照明条件或面部形状, 来提高肖像的视觉质量。 化妆是现实世界 中最常用的美容方法之一。 对面部的每个部位, 有大量相应的化妆品和使用方法。 初学者通 常需要多年的练习才能画出精致的妆容。 因此, 出现了虚拟化妆技术, 在线、化妆品购物和AR 游戏等应用中被广泛使用。 随着深度学习的发展, 当前的方法已经能够让用户在生成照片 中看到自己画上不同化妆风格, 即使用户输入照片和美妆参照照片的色调和姿势不同。 在 虚拟化妆的大多数实际用例中, 用户会呈现大幅度变化的姿态和表情用以检查妆容在各个 角度下的效果。 因此, 一种可靠的美妆迁移方法需要能够在不同的3D面部姿势和动作中保 持视觉一致性, 这将大大提高虚拟化妆技术的应用性。 0003 尽管生成性对抗网络在2D图像上转换化妆风格方面取得了重大进展, 但在生成任 意姿势和表情的美妆人脸图像方面仍然存在两个挑战。 首先, 大多数基于2D的方法难以处 理显著不同的姿势和表情。
16、, 因为它们通常在数据处理阶段将训练数据集中的人脸面部特征 进行对齐。 虽然一些工作可以处理较大的姿势和表情差异, 但它们在面部视频上的结果质 量仍然受到妆容不对称的缺陷和帧间闪烁的影响。 其次, 基于卷积的方法不能保持化妆细 节的一致性。 其原因在于, 在学习和解释特征时, 卷积运算倾向于融合感受野中的像素, 导 致在传递风格特征时模糊精确的外观细节。 发明内容 0004 针对上述问题, 本发明提出一种视频美妆迁移方法, 包括: 步骤1, 获取人脸视频的 视频帧序列、 拍摄该人脸视频的相机的内部参数以及每张视频帧中人脸的姿态参数和表情 参数, 构建为第一数据集; 步骤2, 构建包括密度预测模。
17、块和颜色预测模块的动态神经辐射 场网络, 以该第一数据集对该动态神经辐射场网络进行训练至收敛, 获得隐式重建该人脸 视频的神经辐射场网络; 步骤3, 固定步骤2中完成训练的密度预测模块, 基于美妆参考图像 生成该人脸视频图像的伪美妆迁移结果, 构建为第二数据集; 以该第二数据集对该颜色预 测模块进行重新训练至收敛, 使用混合人脸损失函数和密集关键点颜色损失函数进行监 督, 通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差; 步骤4, 以完成训练的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸 神经辐射场。 0005 本发明所述的视频美妆迁移方法, 于步骤2中。
18、, 在某一视频帧的图像上, 将相机位 置与图像上的像素点相连, 构成光线射线, 在光线上选取采样点, 将该采样点对应的位置数 据和角度数据分别输入动态神经辐射场网络进行训练; 该动态神经辐射场网络包括粗网络 说明书 1/11 页 6 CN 115689869 A 6 和精细网络的可学习权重为 coarse, 的可学习权重为 fine; 该动态 神经辐射场网络的损失函数为 0006 0007 其中, Li( )jCIij2, Iij表示视频帧i对应图像I的像素点j的RGB颜色 值, C为该像素点的网络预测RGB颜色值, N为视频帧图像的数量; 0008训练过程中, 首先训练以获得该神经辐射场。
19、的密度信息, 然后将该密度信 息提供给并将在密度大于采集阈值的采样点附近再选取多个新采样点对进行训 练; 通过训练收敛的获得能重建视频帧所有图像的网络。 0009 本发明所述的视频美妆迁移方法, 于步骤3中, 首先将美妆参考图像x基于参考图 和目标图的人脸关键点对应进行人脸变形, 并将变形结果贴合到视频帧图像yi上, 并利用 泊松融合与原图像融合, 生成具有目标美妆分布的伪美妆图像其中i代表视频的第i帧 图像; 对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数Lhybrid和密集关键 点颜色损失函数Ldense进行监督, 对该颜色预测模块训练收敛后, 得到该视频帧基于x的美妆 迁移结果。
20、其中, 0010 0011 0012K为从和中裁剪出的包含关键面部特征的关键图像块gk的数量, pk表示该关 键图像块的伪真值, nk表示该关键图像块未上妆前的原始图像,表示关键图像块的损 失函数在Lhybrid中的比重,表示该关键图像块中脸部皮肤区域的伪真值,表示该脸部 皮肤区域的美妆迁移结果,表示该脸部皮肤区域的损失函数在Lhybrid中的比重, M为脸部 区域关键图像块的数量, peye,lip表示该关键图像块中眼睛和嘴唇部分的伪真值, geye,lip表示 该眼睛和嘴唇部分的美妆迁移结果, optional表示该眼睛和嘴唇部分的损失函数在Lhybrid中 所占的比重,是从图像提取第d个。
21、密集人脸关键点颜色的操作,表示整张人脸的美妆 迁移结果, x是美妆参考图像, D是人脸关键点的数量。 0013 本发明所述的视频美妆迁移方法, 对该颜色预测模块进行重新训练的过程中, 以 和xuv作为该纹理图块鉴别器的输入, 从和xuv的固定关键点位置中裁取块进行误差 说明书 2/11 页 7 CN 115689869 A 7 判别; 其中,为该人脸视频的美妆迁移结果yX的UV纹理贴图, xuv为美妆参考图像x的UV 纹理贴图。 0014 本发明还提出一种视频美妆迁移系统, 包括: 数据获取模块, 用于获取人脸视频的 视频帧序列、 拍摄该人脸视频的相机的内部参数以及每张视频帧中人脸的姿态参数和。
22、表情 参数, 构建为第一数据集; 人脸模型获取模块, 用于构建包括密度预测模块和颜色预测模块 的动态神经辐射场网络, 以该第一数据集对该动态神经辐射场网络进行训练至收敛, 获得 隐式重建该人脸视频的神经辐射场网络; 美妆结果获取模块, 用于固定通过人脸模型获取 模块得到的完成训练的密度预测模块, 基于美妆参考图像生成该人脸视频图像的伪美妆迁 移结果, 构建为第二数据集; 以该第二数据集对该颜色预测模块进行重新训练至收敛, 使用 混合人脸损失函数和密集关键点颜色损失函数进行监督, 通过纹理图块判别器纠正该美妆 迁移效果的美妆分布相对于该美妆参考图像的误差; 神经辐射场获取模块, 用于以完成训 练。
23、的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸神经辐射场。 0015 本发明所述的视频美妆迁移系统, 在该人脸模型获取模块中, 在某一视频帧的图 像上, 将相机位置与图像上的像素点相连, 构成光线射线, 在光线上选取采样点, 将该采样 点对应的位置数据和角度数据分别输入动态神经辐射场网络进行训练; 该动态神经辐射场 网络包括粗网络和精细网络的可学习权重为 coarse, 的可学习权 重为 fine; 该动态神经辐射场网络的损失函数为 0016 0017 其中, Li( )jCIij2, Iij表示视频帧i对应图像I的像素点j的RGB颜色 值, C为该像素点的网络预测RGB颜色。
24、值, N为视频帧图像的数量; 0018训练过程中, 首先训练以获得该神经辐射场的密度信息, 然后将该密度信 息提供给并将在密度大于采集阈值的采样点附近再选取多个新采样点对进行训 练; 通过训练收敛的获得能重建视频帧所有图像的网络。 0019 本发明所述的视频美妆迁移系统, 在该美妆结果获取模块中, 首先将美妆参考图 像x基于参考图和目标图的人脸关键点对应进行人脸变形, 并将变形结果贴合到视频帧图 像yi上, 并利用泊松融合与原图像融合, 生成具有目标美妆分布的伪美妆图像其中i代 表视频的第i帧图像; 对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数 Lhybrid和密集关键点颜色损失函。
25、数Ldense进行监督, 对该颜色预测模块训练收敛后, 得到yi基 于x的美妆迁移结果其中, 0020 说明书 3/11 页 8 CN 115689869 A 8 0021 0022K为从和中裁剪出的包含关键面部特征的关键图像块gk的数量, pk表示该关 键图像块的伪真值, nk表示该关键图像块未上妆前的原始图像,表示关键图像块的损 失函数在Lhybrid中的比重,表示该关键图像块中脸部皮肤区域的伪真值,表示该脸部 皮肤区域的美妆迁移结果,表示该脸部皮肤区域的损失函数在Lhybrid中的比重, M为脸部 区域关键图像块的数量, peye,lip表示该关键图像块中眼睛和嘴唇部分的伪线、e,lip表示 该眼睛和嘴唇部分的美妆迁移结果, optional表示该眼睛和嘴唇部分的损失函数在Lhybrid中 所占的比重,是从图像提取第d个密集人脸关键点颜色的操作, 表示整张人脸的美妆 迁移结果, x是美妆参考图像, D是人脸关键点的数量。 0023 本发明所述的视频美妆迁移系统, 其中美妆结果获取模块还包括: 块鉴别模块, 用 于以和xuv作为该纹理图块鉴别器的输入, 从和xuv的固定关键点位置中裁取块进行 误差判别; 其中,为该人脸视频的美妆迁移结果yX的UV纹理贴图, xuv为美妆参考图像x 的UV纹理贴图。 0024 本发明还提出一种计算机可读存储介质, 存储有计算机可执行指令。
27、, 其特征在于, 当该计算机可执行指令被执行时, 实现如前所述的视频美妆迁移方法。 0025 本发明还提出一种数据处理装置, 包括如前所述的计算机可读存储介质, 当该数 据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时, 实现基 于美妆参考图像对人脸视频的视频美妆迁移。 0026 本发明利用动态神经辐射场的框架来保持一致性, 并提出了一种两阶段的训练方 案来分别预测目标人脸的几何信息和美妆后外观。 同时, 提出了一种混合美妆损失函数和 密集关键点颜色损失函数, 以明确监督网络根据第一阶段预测的人脸几何合理地迁移美妆 风格。 最后, 为了提高帧间美妆细节的一致性, 合理优化。
28、人脸关键部位的美妆细节, 本发明 同时引入了基于纹理图的块判别器进行判别。 附图说明 0027 图1是本发明的基于神经辐射场的视频美妆迁移方法的流程图。 0028 图2是本发明的基于神经辐射场和纹理图块判别器的视频美妆迁移方法的流程细 节展示图。 0029 图3是本发明方法在不同程度的妆容目标下的效果展示图。 0030 图4、 5是本发明的视频美妆迁移方法与其他方法在不同场景上的比较示意图。 0031 图6、 7是本发明方法的效果展示图。 0032 图8、 9是本发明方法消融实验的结果示意图。 0033 图10是本发明的数据处理装置示意图。 说明书 4/11 页 9 CN 115689869 。
29、A 9 具体实施方式 0034 为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合附图, 对本发明进 一步详细说明。 应当理解, 此处所描述的具体实施方法仅仅用以解释本发明, 并不用于限定 本发明。 0035 鉴于已有方法存在着各种局限性, 本发明的目标是仅需输入一段单目人脸视频和 目标美妆参考图像, 生成指定妆容的可控姿态表情的美妆人脸神经辐射场, 这是现有的美 妆迁移方法无法实现的。 发明人发现, 目前的方法需要从大量的美妆人脸数据中学习指定 妆容特征分布, 因此需要大量美妆人脸图片和未上妆人脸图片作为训练数据集。 另一方面, 由于基于卷积的人脸美妆迁移方法模糊了像素级的美妆信息。
30、, 生成的上妆人脸往往缺乏精 确的美妆细节。 最后, 由于视频人脸有大姿态的动作和表情变化, 目前针对图片的美妆迁移 方法无法保证良好的帧间一致性。 因此, 发明人提出了基于动态神经辐射场的美妆迁移方 法, 分两步分别训练原输入人脸的几何信息以及美妆迁移后的目标颜色信息。 这种两阶段 的训练方案, 保证了人脸几何结构的准确保持, 同时生成合理美妆迁移结果。 同时引入混合 美妆颜色损失函数以及密集关键点颜色损失函数和基于纹理图的块判别器对第二阶段的 颜色预测进行监督。 0036 针对上述问题, 本发明提出一种视频美妆迁移方法, 包括: 获取人脸视频的视频帧 序列、 拍摄该人脸视频的相机的内部参数。
31、以及每张视频帧中人脸的姿态参数和表情参数, 构建为第一数据集; 构建包括密度预测模块和颜色预测模块的动态神经辐射场网络, 以该 第一数据集对该动态神经辐射场网络进行训练至收敛, 获得隐式重建该人脸视频的神经辐 射场网络; 固定上一步骤中完成训练的密度预测模块, 基于美妆参考图像生成该人脸视频 图像的伪美妆迁移结果, 构建为第二数据集; 以该第二数据集对该颜色预测模块进行重新 训练至收敛, 使用混合人脸损失函数和密集关键点颜色损失函数进行监督, 通过纹理图块 判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差; 以完成训练的动态 神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸神。
32、经辐射场。 0037 以该第一数据集对该动态神经辐射场网络进行训练的过程中, 在某一视频帧的图 像上, 将相机位置与图像上的像素点相连, 构成光线射线, 在光线上选取采样点, 将该采样 点对应的位置数据和所在光线的方向数据输入动态神经辐射场网络进行训练; 该动态神经 辐射场网络包括粗网络和精细网络和的可学习权重分别为 coarse 和 fine; 该动态神经辐射场网络的损失函数 其中N为 视频帧图像的数量; 训练过程中, 首先训练以获得该神经辐射场的密度信息, 将该密 度信息提供给并将在密度大于采集阈值的采样点附近选取多个新采样点对进 行训练; 通过训练收敛的获得能重建视频帧所有图像的网络。 。
33、0038 对该颜色预测模块进行重新训练的过程中, 首先将美妆参考图像x基于参考图和 目标图的人脸关键点对应进行人脸变形, 并将变形结果贴合到视频帧图像yi上, 并利用泊 松融合与原图像融合, 生成具有目标美妆分布的伪美妆图像其中i代表视频的第i帧图 像; 对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数Lhybrid和密集关键点 说明书 5/11 页 10 CN 115689869 A 10 颜色损失函数Ldense进行监督, 对该颜色预测模块训练收敛后, 得到该视频帧基于x的美妆迁 移结果其中, 0039 0040 0041K为从和中裁剪出的包含关键面部特征的关键图像块gk的数量, 。
34、pk表示该关 键图像块的伪真值, nk表示该关键图像块未上妆前的原始图像,表示关键图像块的损 失函数在Lhybrid中的比重,表示该关键图像块中脸部皮肤区域的伪真值,表示该脸部 皮肤区域的美妆迁移结果,表示该脸部皮肤区域的损失函数在Lhybrid中的比重, M为脸部 区域关键图像块的数量, peye,lip表示该关键图像块中眼睛和嘴唇部分的伪真值, geye,lip表示 该眼睛和嘴唇部分的美妆迁移结果, optional表示该眼睛和嘴唇部分的损失函数在Lhybrid中 所占的比重,是从图像提取第d个密集人脸关键点颜色的操作, 表示整张人脸的美妆 迁移结果, x是美妆参考图像, D是人脸关键点的。
35、数量。 0042 此外, 通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图 像的误差时, 以和xuv作为该纹理图块鉴别器的输入, 从和xuv的固定关键点位置中裁 取块进行误差判别; 其中,为该人脸视频的美妆迁移结果yX的UV纹理贴图, xuv为美妆参 考图像x的UV纹理贴图。 0043 本发明的网络训练仅需输入一段未上妆的人脸视频帧序列及目标美妆参考图像, 无需使用大量美妆人脸图片和未上妆人脸图片作为训练数据集。 引入混合美妆损失函数以 及密集关键点颜色损失函数, 使得生成的上妆人脸往往拥有更加精确的美妆细节。 仅需输 入一段单目人脸视频和目标美妆参考图像, 即可生成可控姿态表。
36、情的美妆人脸神经辐射 场。 生成结果拥有精确的美妆细节并且很好地保持了视频的帧间一致性。 此外, 还引入了基 于纹理图的块判别器进行判别, 进一步约束美妆细节的准确度, 提高帧间一致性。 0044 具体来说, 本发明公开了一种基于神经辐射场和纹理图块判别器的美妆迁移人脸 视频的方法: 给定一段未上妆的人脸视频帧序列, 估计视频的相机内参以及每帧对应的姿 态、 表情等参数; 输入用于训练的人脸视频帧及其对应参数至网络, 显式控制人脸姿态表 情, 隐式重建三维人脸, 得到人脸空间的密度及颜色信息; 固定人脸密度预测模块, 重新训 练颜色预测模块。 用全新引入的混合人脸损失函数和密集关键点颜色损失函。
37、数进行监督; 引入基于纹理图的块判别器进行判别, 训练收敛。 最终完成得到妆容迁移后的美妆人脸神 经辐射场。 本发明方法的流程图如图1所示, 具体流程细节如图2所示。 本发明具体的实施方 式包括: 说明书 6/11 页 11 CN 115689869 A 11 0045 步骤S1: 对输入的未上妆的人脸视频帧序列(原始人脸视频)yi进行预处理操 作, 预测拍摄原始人脸视频的相机参数, 以及原始人脸视频单帧的姿态、 表情参数 i, 同时 实现完整背景的分离。 具体包括: 0046 1、 采用自动解析方法为每一帧标记不同的语义区域; 0047 2、 应用多帧光流估计方法在前额、 耳朵和头发等近刚性。
38、区域获得视频帧之间的密 集对应; 0048 3、 使用集束调整来估计姿势参数。 0049 值得注意的是, 估计的姿势仅对面部有效, 而对颈部和肩部等其他身体部位无效, 因此在选取数据时, 会尽量选取人物上半身保持不动, 人头在动的单目视频。 步骤S1中, 还 根据原始人脸视频中所有连续的帧构造了一个没有人的干净背景图像, 该步骤通过基于解 析结果从每个帧中移除人物区域, 然后计算所有背景图像的聚合结果。 对于缺失区域, 则使 用泊松融合来修复包含邻域信息的像素。 0050 步骤S2: 本发明提出了两阶段的训练方式, 分别训练模块用于预测人脸的原始几 何结构信息和美妆迁移目标的颜色信息。 需要注。
39、意的是, 本发明中作为基准方法的动态神 经辐射场由论文 “Dynamic neural radiance fields for monocular4d facial avatarreconstruction” 提出。 0051 构建由两个多层感知器组成的动态神经辐射场网络, 这两个多层感知器分别为预 测输入采样点密度值 的密度预测模块及预测输入采样点颜色值c的人脸颜色预测模块 0052 一般地, 本发明的动态神经辐射场网络需要输入一系列的单目视频帧yi, 以及 它们的相机参数、 姿势参数P和每帧的面部表情参数 i。 对构建的动态神经辐射场中的每根 光线上选取采样点, 将采样点对应的位置p和所在。
40、光线的方向d输入动态神经辐射场网络进 行训练。 最后, 通过体渲染得到重建的单目动态人脸帧具体地, 对相机中心发射的每 条光线r(t)从最近采样点到最远采样点积分, 最终获得神经辐射场的RGB值C: 0053 0054 其中, znear和zfar分别是最近深度值和最远深度值, 是网络参数, P是姿势参数, 是表情参数, 是可学习的嵌入向量, T(t)是光线从znear到t处的累积透射率, 其被计算为 0055 0056 特别地, 根据神经辐射场的训练方案, 需要同时训练两个动态神经辐射场, 包括一 个粗网络和一个精细网络从获得的密度信息将提供给当训练 时, 将在密度较高的采样点附近采集更多采。
41、样点进行训练。 在该阶段的训练中, 目标是 根据原始人脸视频帧重建未上妆的三维神经辐射场表示。 训练由多层感知器组成的两个动 态神经辐射场和它们的可学习权重表示为 coarse和 fine。 最终生成效果采用精 说明书 7/11 页 12 CN 115689869 A 12 细网络的渲染结果。 0057 本步骤的训练目标是: 0058 0059 其中, 0060 0061 N为视频帧图像的数量, Iij表示视频帧i对应图像I的像素点j的RGB颜色值。 0062 步骤S3: 固定步骤S2中训练好的密度预测模块, 并训练一个美妆预测模块。 其训练 过程由混合美妆颜色损失函数和密集关键点颜色损失函数。
42、进行监督。 为了计算美妆损失函 数, 首先为每个输入视频帧生成一个具有目标美妆分布的伪美妆图像即将美妆参考图 像基于参考图和目标图的人脸关键点对应进行人脸变形, 并将变形结果贴合到视频帧图像 上, 并利用泊松融合与原图像融合, 得到伪美妆图像。 0063在本步骤训练中, 固定在步骤S2训练得到的密度预测模块并训练一个全新的 美妆预测模块来生成美妆迁移效果。 固定密度预测模块加快了训练过程, 降低了GPU 的训练内存成本。 美妆预测模块预测一个低维数但高通道数的特征图, 以进一步降低网 络的训练成本。 接着, 将低维度的特征图与原视频帧的全局特征相融合进行上采样和反卷 积。 需要注意的是, 为了。
43、防止生成结果的栅格化, 保证生成更加清晰的图像效果, 本发明采 用了逐步减少通道数, 增倍维度的方式进行上采样和反卷积。 一般地, 本发明预测32*32*64 的特征图, 经过三层上采样过程得到256*256*3的RGB图像。 训练美妆预测模块收敛后, 将获 得最终生成结果 0064 混合美妆损失函数由两部分组成。 首先, 从伪美妆图像和生成结果中裁剪出包含 关键面部特征的K个关键块, 为了计算关键块间的颜色分布误差, 首先使用 “Beautygan: Instancelevel facial makeup transfer with deep generative adversarial n。
44、etwork” 中提出的直方图匹配将每个伪美妆图像块映射到源视频帧的对应块, 计算映射结 果块和生成结果块之间的L2损失函数。 在实际训练中, 为一些极端的美妆效果添加了一个 可选的损失函数, 该损失函数直接计算从伪美妆图像和生成图像裁剪的眼睛和唇部关键块 的L1损失函数。 其次, 使用脸部掩模获得伪美妆图像和生成图像的皮肤区域, 并围绕关键面 部部位裁取M块皮肤小块。 计算每组皮肤小块对的L2损失函数, 并添加不同的权重。 嘴唇和 眼睛周围的小块权重是其他皮肤贴片的两倍。 混合美妆损失函数Lhybrid可表示如下: 0065 说明书 8/11 页 13 CN 115689869 A 13 0。
45、066其中K为从和中裁剪出的包含关键面部特征的关键图像块gk的数量, pk表示 该关键图像块的伪真值, nk表示该关键图像块未上妆前的原始图像,表示关键图像块 的损失函数在Lhybrid中的比重,表示该关键图像块中脸部皮肤区域的伪真值,表示该 脸部皮肤区域的美妆迁移结果,表示该脸部皮肤区域的损失函数在Lhybrid中的比重, M为 脸部区域关键图像块的数量, peye,lip表示该关键图像块中眼睛和嘴唇部分的伪真值, geye,lip 表示该眼睛和嘴唇部分的美妆迁移结果, optional表示该眼睛和嘴唇部分的损失函数在 Lhybrid中所占的比重。 0067 “Joint 3d face r。
46、econstruction and dense alignment with position map regressionnetwork” 方法可以根据输入的人脸图像估计人脸的三维重建。 可以得到三角形 顶点对应的顶点颜色。 本发明选择所有顶点以三个点的均匀间隔选择密集人脸关键点, 以 排除面部颜色点集合带有的几何信息, 只关注颜色分布。 最后, 本发明逐点计算从伪美妆真 实图像和生成图像采样的密集人脸关键点对间的L2损失, 进一步完善预测模块。 密集关键 点颜色损失的目标方程式定义为: 0068 0069其中,是从图像提取第d个密集人脸关键点颜色的操作, 表示整张人脸的美 妆迁移结果, x。
47、是美妆参考图像, D是人脸关键点的数量。 0070 步骤S4: 在训练用于生成图像的美妆预测模块, 即步骤S3时, 本发明引入了一种基 于块的判别器, 用来纠正生成效果的美妆分布相对于美妆参考图像的误差。 接着, 将得到的 误差与步骤S3中的美妆损失函数一起, 通过反向梯度传播优化网络参数。 原始的基于块的 判别器直接在生成图像上进行裁取判断采样块是否满足生成目标。 然而, 来自参考人脸图 像和合成人脸图像的小块的基本几何信息由于人物姿态和表情的动态变化可能产生很大 的不同, 导致判别器在判别时难度加大、 判别不准确。 因此, 本发明选择将面部图像首先转 换为UV纹理图, 以消除用于无关于化妆。
48、效果的其他因素的影响。 本发明使用已有技术PRNet 将每个人脸像素映射到UV平面上, 固定人脸关键语义点, 得到与姿势和表情的动态无关的 外观信息。 此外, 本发明没有从UV纹理图中随机采样块进行判别, 而是只关注与化妆主要相 关的面部部位, 如嘴唇、 鼻子、 眼睛和眉毛等。 因此, 本步骤首先从生成的图像yX和参考化妆 图像x获得的相应UV纹理贴图和xuv用作纹理图的块鉴别器的输入。 然后, 从UV纹理图的 固定关键点位置中裁取块进行判别。 0071 将上述步骤训练至收敛, 得到可控姿态表情的美妆人脸神经辐射场。 用户可以显 式控制人脸的姿态与表情, 生成拥有精确的美妆细节并且保持帧间一致。
49、性的全新人脸图像 或者视频。 0072 为了验证本发明的效果, 发明人在多种场景下进行了各种对比实验。 0073 图3展示了本发明方法在不同风格的美妆参考图下的各种面部姿态和表情的美妆 迁移效果。 给定原未上妆人脸视频帧和参考图像, 本方法可以生成训练未见过的全新姿势 说明书 9/11 页 14 CN 115689869 A 14 和表情参数的单个化妆图像或具有连续参数序列的美妆迁移效果。 如图3所示, 其显示了具 有完全不同的未训练过的姿势和表情的五帧的美妆转移结果, 用以证明本发明方法的鲁棒 性。 尽管生成的图像与参考图像在几何结构上差异很大, 但生成结果都具有精确的美妆分 布, 并在所有。
50、帧中保持外观一致。 从上到下, 展示的化妆风格由简单到复杂, 验证了本方法 各种情况都能保证鲁棒性。 具体来说, 在第一行展示了使用未化妆人脸作为最轻的化妆风 格, 以生成原序列淡妆人脸的卸妆效果。 即使遇到极端的不对称的美妆风格, 本发明方法的 结果, 仍能保证精确的美妆分布和帧间一致性。 0074 图4和图5展示了本发明方法在不同任务场景下的效果展示。 在二维人脸图像美妆 迁移方面, 展示了淡妆迁移和夸张妆容迁移的效果。 本实验选择了四种最先进的方法与本 发明方法进行比较, 结果如图4所示。 本方法的结果在保持源人脸几何结构的同时, 在面部 特征上具有更准确和合理的颜色分布。 相比之下, 。