新闻资讯

    论文: by

    为了加速神经网络搜索过程,论文提出EAS( ),meta-通过网络转化( )操作进行结构空间探索,操作包含拓宽层,插入层,增加skip-等。为了继续使用学习到的权重,基于- 来初始化新的不同参数的网络,再进一步训练来提高性能,能够显著地加速训练过程。对于meta-,则结合了最近的强化学习方法

    by Net

    整体算法逻辑如图1,meta-学习如何对当前网络中进行网络转换,为了学习多种网络转换操作以及不增加meta-复杂性,使用 来学习当前网络的低维表达神经网络 参数初始化,然后传到actor 来生成一个确定的模型转换动作。为了处理不定长的网络结构输入以及考虑整体网络结构,使用 以及input layer

    Actor

    给予输入结构的低维表达,每个actor 给予特定的网络转换动作,共有两种actor ,分别是 actor和

    训练神经卷积网络_神经网络 参数初始化_卷积神经网络的参数

    在保持网络功能下替换网络的某一层为更宽的层,例如对于全连接层是增加unit数,对于卷积层是增加卷积核数。对于卷积层的卷积核,shape为,分别代表卷积核宽高以及输入和输出的维度数,将当前层替换成更宽的层即

    首先介绍随机映射函数,可以获得新卷积核,第一个直接从中获得,剩余的维根据从中随机选择一维,因此,更宽的新层的输出特征

    为了保持原有的功能,由于输入多了复制的部分,下一层的卷积核需要修改,新卷积核的shap维,公式3的意思大概是,权重要除以前一层对应维度复制的次数,以保证层输出跟之前一样

    卷积神经网络的参数_训练神经卷积网络_神经网络 参数初始化

    为了方便神经网络 参数初始化,论文使用的 actor同时决定处理的层,对于 输出的每一层对应的 state使用 分类器,另外将卷积的核数或全连接的unit数进行分区,直接将决定的层的对应参数升至下一个区间,例如

    操作向网络中插入新的层,然后将其初始化成跟插入 一样,保持其原来的功能。对于新的卷积层,将其卷积核设为卷积核,对于全连接层,则将权重矩阵设为矩阵,因此,新层必须与前一层有一样的核数或unit。另外,想要保持原来网络的性能,对于激活函数,必须满足,ReLU能满足,而和thnh不能,但仍然可以重用带或tanh激活的网络的权重,毕竟这样总比随机初始化要好。另外,当使用BN时,要设置其scale和bias为undo ,而不是初始化为1和0

    actor的结构如图3,为一个循环神经网络, state初始化为 的最后一个 state。将CNN结构根据的位置分成多个block,首先确定插入的block,然后再确定插入层的下标,对于新的卷积网络,agent还需要确定卷积核大小和步长,而对于全连接层则不需要。在卷积网络中,全连接层需要在网络的顶层,如果插入位置在全局池化或全连接后面,新层则指定为全连接层

    - for

    原始的设定网络是layer-to-layer的,没有并行层,但目前的网络大都将单层的输入应用到多个后续的多个层中,直接应用会出现问题,因此论文对其进行了改进。对于,层会将所有前面的层成输入,标记层的卷积核为,shape为   假设需要拓宽层并保持其功能,首先根据操作按公式1和公式2生成新层,这样新输出为,由于的输出会传递到多层,的复制会传递到后面的所有层,所以要修改所有后续的层

    训练神经卷积网络_卷积神经网络的参数_神经网络 参数初始化

    对于层,输入变为,将随机映射函数改为公式4,为层的所有输入数量,公式4的第一部分为,第二部分为,第三部分为

    的简单示意如上,前面的为新层的index,后面为对应的旧的维度index,然后层的新权重直接使用替换成的公式3获得   假设要在的层插入新层,新层输入为,输出为。因此,对于层,插入后的输入为,为了按照类似那样保持性能,应该为中的一个复制

    新层的每个卷积核可以表示为,shape为,第三项为输入数。为了让的输入为的项,按照类似公式5的方式进行设置(假设卷积宽高为3),其它卷积核设为0,当新层的的输出设定好后。建立一个特定的随机映射(这里是按照层建立映射,前面是按照映射建立层),然后按照公式4和公式3来修改后续的层的卷积核

    and

    EAS使用5 GPU进行搜索,有两种设定,第一种为普通卷积网络空间,仅包含卷积、池化和全连接,第二种为结构空间

    神经网络 参数初始化_卷积神经网络的参数_训练神经卷积网络

    meta-为单层双向LSTM,50个 units, size为16,使用ADAM进行训练。每轮通过网络转换采样10个模型,由于重用了特征,每个模型只训练20轮(原来为50轮),初始学习率调低为0.02,使用SGD训练,对准确率进行线性变化来放大高准确率的收益,例如,另外,每个卷积和全连接后面接ReLU和BN

    Plain CNN Space

    初始网络如表1,卷积核大小为,卷积核数量为,全卷积的unit数为

    卷积神经网络的参数_训练神经卷积网络_神经网络 参数初始化

    训练分为两阶段,第一阶段每轮将起始网络进行5次和4次,采样够300个网络后,选取表现最好的网络训练100轮作为下阶段的输入。第二阶段也是进行5次和4次,采样150个网络后停止,取最好模型进行300轮迭代。结果如表2的depth=16,整体需要10 GPU days,共450个网络

    将上一个实验的最好模型作为这次实验的起点,结果如表2的depth=20,另外与SOTA进行了对比,结果如表3

    Space

    将-BC(L=40,k=40)作为起点,结果如表4

    论文提出经济实惠且高效的神经网络结构搜索算法EAS,使用RL agent作为meta-,学习通过网络变换进行结构空间探索。从指定的网络开始,通过- 不断重用其权重,EAS能够重用之前学习到的知识进行高效地探索新的结构,仅需要10 GPU days即可

网站首页   |    关于我们   |    公司新闻   |    产品方案   |    用户案例   |    售后服务   |    合作伙伴   |    人才招聘   |   

地址:北京市海淀区    电话:010-     邮箱:@126.com

备案号:冀ICP备2024067069号-3 北京科技有限公司版权所有