【图像生成与编辑】最新进展!

文章目录
前言
在CV和NLP领域,最近涌现出了许多跨模态的大模型,在处理图像和文本数据时取得了令人瞩目的成果 。其中,生成模型是一类重要的模型,可以生成新颖的图像、文本或音频等内容,具有重要的实用价值 。其中的三个大模型: 、Edit和SAM,利用了最新的深度学习技术和模型架构,创造性地解决了图像生成、修复和编辑等问题,具有许多实际应用价值 。
具体来说,主要用于实现物体移除、内容填补、场景替换等图像修复和编辑任务;Edit则是一个基于文本引导的图像生成和编辑系统;而SAM 则是一个检测、分割和替换任何图像中的对象的强大系统 。这些模型已经在许多实际场景中得到了广泛的应用,并展示了其强大的理论和实用价值 。
本文旨在介绍这三个模型的原理、算法和应用,希望能够为读者带来有价值的信息和启发 。在下文中,我们将分别对这三个模型进行详细的介绍,并对其应用和性能进行分析和评估 。`
一、 :一键实现物体移除、内容填补、场景替换
IMCL实验室基于Meta发布的图像分割基础模型SAM (Model),提出了修补一切模型( ,简称 IA),具有功能:
1.移除一切( ):点击一下想要移除的物体,IA 将无痕地移除该物体;
2.填补一切(Fill ):可以进一步通过文本提示告诉 IA 想要在物体内填充什么,IA 随即通过驱动已嵌入的 模型生成相应的内容填充物体,实现随心「内容创作」;
3.替换一切( ):可以通过点击选择需要保留的物体对象,并用文本提示告诉 IA 想要把物体的背景替换成什么,即可将物体背景替换为指定内容,实现生动「环境转换」 。
整体框架:

【图像生成与编辑】最新进展!

文章插图
主要由SAM、LaMa、SD三个模型构成,SAM负责前期的图像分割,LaMa负责移除物体(第一个功能),SD负责填充物体或更换背景(后两个功能) 。LaMa模型用于填充缺失的图像,其架构和原理如下:
LaMa采用快速傅里叶卷积FFC,将图像转入频域来保留高频信息:输入被划分为两个分支进行运算 。Local分支使用常规卷积;分支使用Real FFT进行全局上下文关注 。其中在分支中经历了Real FFT2d和 Real FFT2d的操作,实现了图像重建 。在FFC的输出中两分支进行结果合并 。
实验结果:
【【图像生成与编辑】最新进展!】在 COCO 数据集、LaMa 测试数据集和自己用手机拍摄的 2K 高清图像上对进行测试 。此外,模型还支持 2K 高清图和任意长宽比,这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用 。
二、Edit : 一种文本引导的图像编辑生成系统
Edit 作为一个新的生成系统,它可以接受图像和文本输入,然后产生图像输出 。Edit 允许用户使用简单的文本指令()来编辑图像 。本文的系统设计,以指导视觉模型生成所要求的图像 。实验证明,通过使用 模型和CLIP,Edit 有助于实现 的视觉效果 。
整体框架:
由文本引导的生成系统 由三个主要组件组成:Model (SAM)、CLIP和 (SD):
SAM被用来提取图像的所有分段(),而CLIP被训练来根据给定的源提示对这些片段进行排列 。源提示描述感兴趣的对象,本质是描述目标对象和编辑样式的文本 。然后选择得分最高的分段作为目标分段 。最后,SD由目标提示引导以生成新对象来替换所选目标分段(黑色) 。这允许精确和个性化的图像编辑方法:
三、-SAM :检测、分割与替换一切!
就在 SAM 发布后一天,IDEA-在此基础上搞出了一个进化版本「-SAM」 。-SAM 把 SAM 和 BLIP、集成在一起,将图片「分割」、「检测」和「生成」三种能力合一,成为最强 Zero-Shot 视觉应用 。