Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架

Pixel3DMM项目简介

Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出3D人脸的几何结构。Pixel3DMM在多个基准测试中表现出色,在处理复杂面部表情和姿态方面,显著优于现有方法。Pixel3DMM引入新的基准测试,涵盖多样的面部表情、视角和种族,为该领域的研究提供新的评估标准。

Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架

Pixel3DMM优势介绍

高精度的3D人脸重建:从单张RGB图像中准确重建出3D人脸的几何结构,包括面部的形状、表情和姿态。

处理复杂表情和姿态:擅长处理复杂的面部表情和非正面视角的人脸图像,能有效地重建出高质量的3D人脸模型。

身份和表情的解耦:从表现性(posed)图像中恢复出中性(neutral)面部几何,即能区分和重建出人脸的身份信息和表情信息。

Pixel3DMM详细报告

预训练的视觉变换器(Vision Transformer):用 DINOv2 作为骨干网络,提取输入图像的特征。DINOv2 是强大的自监督学习模型,能提取出丰富的语义特征,为后续的几何线索预测提供坚实的基础。

预测头(Prediction Head):在 DINOv2 骨干网络的基础上,添加额外的变换器块和上卷积层,将特征图分辨率提升到所需的尺寸,最终输出预测的几何线索。几何线索包括表面法线和uv坐标,为3D人脸模型的优化提供重要的约束信息。

FLAME 模型拟合:基于预测的表面法线和uv坐标作为优化目标,优化FLAME模型的参数重建3D人脸。FLAME是参数化的3D人脸模型,能表示人脸的身份、表情和姿态。基于最小化预测的几何线索与FLAME模型渲染结果之间的差异,优化FLAME模型的参数,实现高精度的3D人脸重建。

优化策略:在推理阶段,基于最小化预测的几何线索与FLAME模型渲染结果之间的差异,优化FLAME模型的参数。

数据准备与训练:用多个高质量的3D人脸数据集(如NPHM、FaceScape和Ava256),基于非刚性配准统一到FLAME模型的拓扑结构中,训练预测网络。数据集涵盖多种身份、表情、视角和光照条件,确保模型的泛化能力。

Pixel3DMM的项目地址

项目官网:https://simongiebenhain.github.io/pixel3dmm/

arXiv技术论文:https://arxiv.org/pdf/2505.00615

Pixel3DMM主要应用

影视游戏:快速生成高质量3D人脸模型,提升表情捕捉与动画效果,降低成本。

VR/AR:创建逼真虚拟头像,增强沉浸感和交互真实感。

社交视频:生成虚拟背景和特效,提升视觉效果,实现更准确的表情识别和互动。

医疗美容:辅助面部手术规划,提供虚拟化妆和美容效果预览。

学术研究:提供新方法和基准,推动3D人脸重建技术发展。

工具测评

AutoBE – AI驱动的后端服务器代码生成工具

2025-5-26 20:24:05

工具测评

7000字超全拆解Sora提示词秘籍解析及竞品效果对比测评

2025-5-26 20:33:33