视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾( 三 )


「Align Your 」介绍了使用隐扩散模型生成高分辨率视频 。在扩散模型中,去噪是一个随机过程 。该工作通过视频微调在时序上对齐了图像 LDM,并降低了计算开销 。在模型方面,该工作在空间层后加入了时序层 。
圆桌论坛
魏云超 | 北京交通大学教授
王鑫龙 | 智源研究院研究员
潘新钢 | 南洋理工大学计算机科学与工程系助理教授
夏威 | 摩尔线程AI副总裁
高俊 |研究科学家(连线)

视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾

文章插图
潘新钢教授认为,两个模型各有优劣,但是 Model的上限更高,随着算力,硬件性能的提高,Model的重要性会越来越大 。
两个模型主要有以下三点不同:
1. 在计算需求方面,Model需要很大的计算量,GAN虽然在生成质量上可能不比 Model,但是不要特别大的计算量,可以在硬件部署上达到实时生成 。
2. 在图像分布连续性方面,由于 Model的迭代式计算带来的高度非线性,所以在一些任务上,如视频编辑,会出现跳变和抖动 。但是GAN是通过单步计算,生成的图像会表现得更加连续 。
3. 在可编辑性方面,基于GAN所得到的隐空间表现出更具有上下文语义的特征 。通过对该空间进行编辑,使得图像具有很强的可编辑性 。但是 Model是从耦合了空间信息的随机噪声图生成图像,因此在可编辑性上相对不易控制 。
【视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾】高俊博士认为,GAN目前最大的局限是难以扩展到大数据训练,相比之下,Model对大数据训练更加友好 。另外,相比于 Model这种去噪的训练过程,GAN通过对抗学习的训练方式,可以更好地捕获单视角(2D)图像生成多视角(3D)图像中的空间关系 。
夏威博士认为,GAN由于可以在特征隐空间进行操作,具有更好地可编辑性,但是限制了其更加通用的生成能力 。是否能将GAN的对抗学习方式和特征空间的对齐特性用到 Model的训练过程中,提高其训练速度和可编辑性 。
目前在视觉模型没有出现现象级应用,与会专家认为主要在以下几个原因:
(1)目前的视觉任务(如分割、检测、分类等)往往是一些实际应用(如机器人、自动驾驶等)的中间任务,普通人不太在意在这些视觉任务上模型性能的提升 。
(2)从算法到应用落地还有很长的过程,要用应用层面去思考如何让视觉模型出圈 。
(3)移动互联网火起来归功于智能手机的发展,而目前视觉模型缺乏像智能手机这样的硬件接入模式 。
对于基于视觉模型破圈的应用,与会专家认为未来可能会在以下几个方向:
(1)修图软件,利用类似“Drag Your GAN”模型编辑照片;
(2)元宇宙,在元宇宙中人、场景、内容等几个要素之间的交互;
(3)3D内容的生成,如动画、电影、游戏等;
(4)与大语言模型结合,视觉语言交互 。
针对目前通用视觉模型的发展瓶颈,与会专家认为主要有以下几点:
(1)如何获取更有价值的数据,十分重要;
(2)现有的视觉模型评价指标需要更新,仅仅靠在基准数据集上刷点已不足以让模型获取新的能力;
(3)相较于语言数据,视觉数据的信息密度很低 。在相同的训练数据量下,语言模型可能回更快地看到涌现的效果 。
针对通用视觉模型未来的突破方向,与会专家认为会在以下几个方面:
(1)跟大语言模型进行结合,构建多模态大模型;
(2)探究不同的视觉任务(如分割、检测、分类等)之间的联系,构建任务间统一的范式;