Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation

[Arxiv][PDF][2303.13873]

相较之前的Text-to-3D工作,能生成更高质量的3D模型,因为NeRF建模对表面重建的效果较差,这些使用预训练的Text-to-image模型的方法结果质量较低。

方法借鉴GET3D,同样用到了DMTet,可微的渲染方法也是nvidiffrast,b中初始化一个椭圆的DMTet以及其SDF分数,之后使用DreamFusion中提出的SDS损失进行优化

c部分用于进行逼真的表面渲染,使用了一个MLP预测出kd,krm,knk_d,k_{rm},k_n三个参数,然后使用BRDF等渲染公式渲染出新的图片,再使用SDS损失进行优化

DreamFusion中使用Imagen并不公开,所以使用Stable Diffusion

results

从结果看来,生成的图片确实比DreamFusion好不少,而且比Magic3D还要更加真实,并且可以实现 user-guided

可以看出这篇论文的方法相比DreamFusion添加了很多的约束,先优化出一个初始形状,再添加逼真的纹理约束,使得结果向更加逼真的方向发展,说明添加更多更好的约束可以缩小解的空间,使得优化过程更加快速,并且结果更好

DreamBooth3D: Subject-Driven Text-to-3D Generation

[ArXiv][PDF][2303.13508]

以往的Text-to-3D任务无法实现特定主题的3D assets生成,所以结合了在个性化文本到图像模型方面的最新进展(DreamBooth)以及DreamFusion,可以从3-6张图片以及文本生成以图片为基准,同时尊重文本提示的3D assets

DreamBooth可以从几张用户提供的图片生成新的与文本对应的图片,主要是依靠微调原有的T2I diffusion model

本文先将DreamBooth与DreamFusion直接结合,得到的结果并不理想,作者认为是DreamBooth过度拟合了用户提供的几张图片的视图,以至于无法很好得生成其他视角的视图

Stage-1,初始化一个未完全训练的DreamBooth,优化出一个与用户图片不完全对应的NeRF

Stage-2,使用Stage-1获得的NeRF采样几个视角的图片,然后使用这些图片与用户图片完全训练的DreamBooth,生成与用户图片对应的伪多视角图片

Stage-3,使用这些伪多视角图片训练Stage-1中未完全训练的DreamBooth,然后再使用训练好的模型与用户图片和伪多视角图片一起,计算SDS损失、重建损失等优化NeRF

这篇论文给我们的启发是,我们可以将Text-to-Image的任务迁移到3D领域中,先简单的结合看看效果,如果出现问题就可以着手去解决

但是具体看这篇论文,一开始简单结合时的缺陷主要来自于完全训练的DreamBooth会过拟合,但后面却用完全训练的DreamBooth生成了多视角图片,说明作者的理解可能并不准确,而且流程曲折并不优雅,可能会有更好的解法

3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion

Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation

RealFusion: 360° Reconstruction of Any Object from a Single Image

[ArXiv][PDF][2303.13508]

PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360

[ArXiv][PDF][2303.13071]

Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior

[ArXiv][PDF][2303.14184]

View Synthesis with Sculpted Neural Points

[ICLR2023][PDF][2205.05869]

以一组图像作为输入,生成一个场景的新视图。它有一些重要的应用程序,包括增强现实技术和虚拟现实技术

NeRF的隐式表示也使它在变形等场景编辑操作中不灵活,而这对于包括增强现实和视频游戏在内的下游应用非常重要。一些工作使NeRF能够进行场景编辑,但是,要么编辑方式受到高度限制,要么必须有在所有想要的对象姿态下捕获的图像。

另一方面,这种限制很容易通过诸如网格或点云等显式表示来克服。一个有趣的问题是,我们是否可以通过使用点云等显式表示来实现最先进的视觉质量。

基于点的神经渲染的基本框架是将场景表示为一个具有特征的点云,并通过一个多视图立体系统(MVS)系统进行重建。虽然这个框架已经在最近的几项工作中进行了研究,但整体渲染质量仍然落后于NeRF,主要是由于对由几何模型中的错误引起的重影效应和模糊性。

我们的方法采用了这一基本框架,但引入了一种新的技术,我们称之为“雕刻神经点(SNP)”,它显著提高了对重构的点云中的误差和孔的鲁棒性。