视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾 _模型

导读
6 月 9 日下午，智源大会「视觉与多模态大模型」专题论坛如期举行。随着、、SAM 等爆火应用相继问世，AIGC 和计算机视觉与大模型的结合成为了新的「风口」。本次研讨会由智源研究院访问首席科学家颜水成和马尔奖获得者曹越共同担任论坛主席，由北京交通大学教授魏云超主持。本论坛邀请了来自南洋理工大学、、智源研究院等国内外知名研究机构的顶尖学者共聚一堂，报告的内容涵盖生成模型、3D 视觉、通用视觉模型设计。以下是核心内容整理：
Drag Your GAN:Point-based
on theImage
潘新钢 | 南洋理工大学计算机科学与工程系助理教授
图像编辑(Image )一直以来火热的研究方向，而且具有很广泛的应用场景。现有的图像编辑主要有以下四类：
（1）基于全监督学习的模型，如；
（2）基于语义分割图的模型，如SPADE；
（3）基于人体关键点的模型，如；
（4）基于文本引导的模型，如。然而现有的这些模型缺乏对空间属性编辑的灵活性，准确性，通用性。以皮影戏为例，通过控制皮影人物的关键点，可以做出各种各样的动作。
为了让模型在具有利用关键点能力的同时，并可以在编辑图像时推理出被遮挡的区域，潘新钢教授团队提出了一种基于生成对抗网络（，GAN）的实时交互式图像编辑模型Drag Your GAN 。用户在图像上确定抓取点（ Point）和目标点（ Point），将图像与点信息一起输入到生成器中获取隐向量（ Code），该模型通过使用多步式迭代并在每一步迭代过程中使用动态监督损失函数，逐步优化隐向量，直至抓取点逐步移动到目标点。此外，用户可以选择修改区域，只编辑区域内的部分。通过在多个数据集上验证，展现了Drag Your GAN模型强大的图像编辑能力。
该报告介绍了通过交互式关键点拖拽的方式来编辑图像的生成式模型Drag Your GAN，改模型的核心为关键点动态监督和关键点跟踪。最后，潘新钢教授表示，通过文本引导和拖拽关键点相结合的方式将会引领图像编辑领域的未来。
将机器学习用于 3D 内容生成
高俊 |研究科学家
人类生活在三维世界中，创作三维的虚拟数字世界，有助于人类更好地理解世界、解决现实生活中无法解决的问题。
生成的三维虚拟场景需要满足以下要求：
（1）物体数量足够多
（2）物体类型多样
（3）质量高，包含几何信息、纹理信息
工业界现有的依赖人工的三维世界创建方案要消耗大量人力物力，对操作者的能力要求较高，难以大规模扩展。等基于深度学习的三位视觉生成方法在几何和纹理细节生成方面仍有很大提升空间。
三维生成模型主要面临两点挑战：
（1）构建适用于机器学习的三维表征，易在下游任务中使用，具有灵活多样的拓扑结构、纹理、材质
（2）构建高效、高质量、可控的三维生成模型，能够广泛利用二维数据
「DMTet」提出了一种将神经场等隐函数与 mesh 网格表征相对应的方法，构建了可微的 iso，在利用 mesh 高精度、拓扑灵活、适合实时渲染等特性的同时，可以进行形状编辑，避免了离散化操作，利用深度学习生成方法得到了高质量 mesh 表征。
在 3D 生成模型方面，为了借鉴 2D GAN 的成功，「Get3D」实现了基于光栅化的可微渲染，构建了强大的判别器；通过 Tri-Plane 技术构建了高质量的 3D 表征；将 DMTet 与结合，实现了高效的训练。
「」将文本作为输入，构建了一个由粗到精的生成框架。粗生成阶段使用低分辨率扩散模型，通过生成初始化几何特征；精细生成阶段使用高分辨率扩散模型通过 DMTet 实现 Mesh 渲染。该模型利用预训练好的 2D 图像扩散模型的知识，将其评分函数用于引导图像生成，使用可微渲染构建了 3D 和 2D 之间的桥梁，实现了高效、高精度、局部可控的 3D 图像生成。