2019 智见 AI workshop in Beijing( 四 )


而且数越多,提取出来的信息冗余度越高,总会有某个平衡点是,多付出一分算力一分时间,我们能获得的非冗余有用信息很少,少到多付出的时间和资源显得没有意义(如何去衡量这个平衡点,也是我们算法从业人员应该要考虑的范畴) 。那么我们是否可以在保留尽量多的通道数的情况下,减少运算量,使得我们算法的运行速度提升呢? 应运而生 。它的具体思路就是舍弃了之前卷积操作会对前一层的所有输入通道进行处理,然后一并输出(相当于输入通道所有信息全部融合),转而在每一次的卷积操作中,将所有通道随机分成 N 组,每组内做卷积操作分别输出一定数量的通道,然后所有输出通道再合并到一起 。这样就相当于同组通道的信息会融合,而不同组的则互相不可见 。为了尽可能模仿原来的卷积操作,让所有的通道信息都尽可能地融合起来,分组的方式采用了随机操作 。这就是 -V1 的主要思路了 。缺点当然也很明显了,一是通道分组如何分分多少组才有效,这里引入了超参,也没有很好的衡量方式 。二是随机分组操作本身就占用了大量的运行时间和算力 。
也是基于这些人为设计的不确定性,现在越来的大佬和课题组都转向研究NAS () 了 。祥雨的分享后半部分也是主要讲NAS方面的工作,这个我不太懂就先按下不表了,而且太耗卡,我估计我可能以后很难有机会了解这一块了 。
说回 -V2,正如前文所说,这篇文章最大的贡献点个人觉得不是模型结构的更新,而是这篇文章里面提到的快速网络设计的四个要点 。这是在模型架构上自和之后,个人认为最有价值的内容了 。
至于模型架构近年一些新的进展和改进方法,可以移步下一个看胡杰的分享 。
ANAS and
稍微接触过,以后会更新一篇关于剪枝和加速的文章 。NAS 就真的相对了解比较少,只知道一些基本概念和大概思路流程,这里大致写写,详情建议看之前附上的网址 。
目前祥雨组在NAS上的工作方向主要是以下三个:
这里主要为他们组的工作打了两个广告,大家有空可以去试试效果,我也很想知道到底是不是真的有用 。
第一篇是Path One-Shot NAS, 它的核心思想来自于 , 主要是为了减少搜索使用的算力而设计的方法
第二篇是 , 这篇就是上面提到的,特定任务直接搜索相应结构 。据说性能效果比用市面上的主流都要高几个点 。对此我是不怀疑的,对特定任务特定数据直接搜索网络,这肯定会比通用框架有更好的效果,只是实际应用中,需要用到的运力和搜索时间是否能够支撑我们在每个特定任务上都能使用,这个才是关键 。貌似最近的一个工作跟这有相似之处,就是以后直接搜网络结构,不训练模型参数了 。这个想法挺有意思,理论上也是有道理的,持续关注中
最后再加点剪枝的内容,在祥雨看来,剪枝这一块可以大致按下面三点去看:
黄高:面向快速推理的卷积神经网络设计
黄高教授是和的作者,注意他的讲稿题目是“面向快速推理”,这个跟上一篇祥雨说到的“轻量级模型”不完全是一样的意思 。
QuickofModel
按照黄高
胡杰:视觉注意力机制在模式设计中的发展与应用 俞刚:检测算法