神经网络新范式——LNDP:可终身学习的自主发育程序

avatar
作者
筋斗云
阅读量:0

近年来人工智能的高速发展离不开深度神经网络的应用,深度神经网络的发展是从大数据和硬件算力设备大规模发展之后才逐渐占据了人工智能的核心研究地位的,在此之前人工智能的研究都是以可解释性强、计算力小的统计学模型为主,但是以统计学为主的人工智能模型缺点非常明显,那就是大多数研究都是基于实验室级别的,由于不善于处理大量的非结构化数据,传统的统计学模型一直没有大规模的使用在实际的生产应用当中。

自从2006年,加拿大多伦多大学的Geoffrey Hinton等人提出了深度学习的概念,人工智能从此进入了新的时代,以仿生学为基础的深度学习模型和以往的统计学模型相比,最大的优势就是它可以大规模的处理现实世界中的各类数据,学习这些数据中的特征规律,从而能够掌握一些能够使用在现实生产中技能,这对于提高生产效率有着非常大的帮助。虽然深度学习模型也有其不可避免的缺点,比如需要大规模的数据,大型的算力资源,以及不可解释性等,但是和其带来的收益相比,这些都不是能够阻拦其发展的阻力。

图片

深度学习的发展在2023年开始又进入了一个新的阶段,以ChatGPT、Sora等为代表的大模型进一步解放了生产力,提高了生产效率。对与数据资源和算力资源的需求也有了一个更高的要求,但是对比基础模型的发展,还是以深度学习为主的人工神经网络为主。人工神经网络的发展最早起源于20世纪40年代,‌当时心理学家Warren McCulloch和数学家Walter Pitts提出了神经元模型。‌这个模型基于生物学中的神经元工作原理,‌为后续神经网络的发展奠定了基础。

自此之后,心理学家F. Rosenblatt又提出了感知器网络的概念。‌感知器网络是一种二分类器,‌可以学习和识别简单的模式,‌但具有明显的局限性,‌例如无法学习异或等非线性模式。20世纪80年代,‌深度学习的概念逐渐受到关注。‌卷积神经网络(‌CNN)‌作为深度学习领域的重要分支之一,‌通过使用卷积操作来提取输入数据的多层特征,‌为神经网络在图像处理和视觉任务中的应用开辟了新的道路,从此深度学习逐渐走上了人工智能领域发展史上的重要阶段。

图片

从人工神经网络最早起源于20世纪40年代的这个时间节点来看,它的发展已经有了八十多年的历史了,这也让业内研究者不禁考虑其存在的意义及其进化的合理性。从第一个感知机被发布出来之后,业内纷纷认为这就是最符合生物神经网络运行的人工神经网络,可以发现一个感知机有输入、有权重、有偏置、有汇总、有激活、有输出,这些都能够被一一对应到生物神经元的树突、细胞体、细胞核、轴突、突触等,而多个感知机结合后就可以合成一个神经网络,随着感知机的不断增加和层数的叠加,就成为了一个深度神经网络。

图片

深度神经网络的层数可以根据实际需求增加到成千上万层,而参数根据实际需要也可以被增加到几千亿上万亿。这些模拟人类神经元的模型在数量各结构上早已超过了人类的极限,人类的中枢神经的神经元个数才不过2000亿个,而人类大脑的神经元更是只有900亿到1000亿个,反观现在的大模型动辄就是千亿大模型,而在表现力方面于人类相比,却无法放在同一层面,比如OpenAI的GPT-3参数是1750亿,这个数量早已超过了人类大脑的神经元个数。而Snowflake的Arctic模型,它的参数更是达到了恐怖的4800亿,即使是这么大参数的模型,还是没有将人工智能带入到AGI时代,更何况对如此巨大参数的模型训练和维护也是一项不小的成本开支。

图片

大模型在带来高效生产力的同时,也带来了更大的成本开支,在这一块各大厂和研究机构也早已察觉,现在各大机构不仅一方面在稳步发展大模型,另一方面也在极力的研究小模型,或者对大模型保证效果的前提下进行参数瘦身,具体方法包括了模型剪枝、量化、低秩分解、算子优化、模型设计等,但是目前这些操作都是基于原始的感知机基础之上的操作,无论是对Transformer模型的改造,降低其随Token增长的二次方计算复杂度,还是新的MOE专家混合模型,以及重新被拿起来研究的RNN模型,底层都是多层感知机。

图片

感知机在其被设计出来之后,对深度学习领域的发展就像是计算机领域的电子管一样重要,但是我们细究感知机的连接方式就会发现,其实感知机的连接方式与生物神经元的连接方式并不一样,首先感知机内部神经元之间的连接在网络被设计完之后就固定了,也就是说,在实际使用过程中,感知机内部的连接是不会发生变化的,这也意味着感知机模型一旦被设计好,其能力就已经被限制了,而反观生物神经元之间的连接则是靠外界的刺激而发生的连接,比如我们不思考问题的时候,大脑内部仅有少量的神经元发生着连接,但是当我们思考问题的时候,大脑内部的神经元就会发生大量的连接。

图片

其次,标准感知机内部神经元的连接仅是层与层之间发生着连接,而同一层内部的神经元之间并没有连接,这并不是说不能这样设计,而是为了基于矩阵计算的要求,方便大规模的计算,深度学习模型在训练和推理过程中,基于GPU等硬件规则,模型内部都是进行着大量的矩阵运算,而矩阵运算的特点就是要遵循行列规则,标准的前馈神经网络通过矩阵乘法来进行计算,这是因为各层间的连接形成了一个清晰的层级结构,每一层的输出可以表示为一个向量或矩阵,而层间的权重也可以表示为矩阵,这样整个计算过程就可以简化为一系列的矩阵运算。如果同层之间发生了连接,高效并行计算就成了问题,这会极大的增加模型的计算复杂度。

图片

那么有没有一个改造方法直接对感知机动手呢?使其能够更接近于生物神经元的连接方式,使其内部结构能够根据外界需求自适应的发生连接。近期,来自哥本哈根信息技术大学的研究团队提出了一种在智能体生命周期内能够实现可塑性和结构变化的机制 ——LNDP(Lifelong Neural Developmental programs,终身神经发育计划)。该机制通过执行局部计算来实现,依赖于人工神经网络中每个神经元的局部活动和环境的全局奖励函数。

图片

LNDP 使得人工神经网络能够以活动和奖励依赖的方式实现突触和结构的可塑性,并桥接了间接发育编码(indirect developmental encoding)和元学习的可塑性规则,并提出了Evolving Self-Assembling Neural Networks(进化自组装网络)。这意味着神经网络终于可以根据具体任务进行自主连接和生长发育了,而非以往固定的、静态的、完全连接的方式。

我们都知道,生物神经网络的特点是具有高度的可塑性,这是使自然生物具有显著适应性的核心特性。重要的是,这种能力同时影响了突触的强度和神经系统的拓扑结构。另一方面,人工神经网络主要被设计成静态的、完全连接的结构,在训练后保持冻结,无法适应任何意外的变化,在面对不断变化的环境和新的输入时可能是出了名的脆弱。而LNDP 由一组参数化组件组成,旨在定义神经和突触动态,并使人工神经网络具有像生物神经网络一样的结构可塑性(即突触可以动态添加或移除)。

图片

具体而言,研究团队提出了一个建立在图转换器结构上的网络实例,并提出了一种基于感受神经元自发活动的预体验可塑性机制。展示了该模型从随机连接或空网络开始的不同控制任务中学习经验的能力。研究人员进一步表明,结构可塑性在需要快速适应或具有非稳定奖励的环境中是非常有利的。

在此之前,Najarro等人(2023)提出了一种能够组装以图形表示的功能性人工神经网络的模型,他们称之为神经发育程序:NDPs(后面为大家准备了论文和代码资料获取渠道)。然而,这些模型在时间上局限于前环境阶段,并没有考虑到终身学习,甚至更少的终身学习。因此,哥本哈根信息技术大学的研究团队通过扩展 NDP 框架来解决这一限制。

图片

具体来说,研究团队采用了一种机制,使其能够代理整个生命周期中发生可塑性和结构变化。它通过执行局部计算来实现这一点,这些局部计算同时依赖于人工神经网络中每个神经元的局部活动和从环境中获得的全局奖励函数。因此,由此产生的系统定义了一个塑性神经网络家族,弥补了间接发育编码和元学习可塑性规则之间的差距,最终称之为终身神经发育程序(LNDP)。

LNDP是由一系列可能包含参数的组件所定义的,这些组件描述了神经元和突触的动力学特性。其设计受到了对架构先验研究以及结构可塑性在学习中的作用的启发,LNDPs还具备结构可塑性的特性(也就是说,模型中的连接即突触可以被动态地增加或减少)。

在此基础上,研究团队提出了一个基于GT(Graph Transformer)图变换层的LNDP实例,它通过突触以及额外的非突触渠道来模拟神经元之间的通信,这种设置允许神经元进行自我组织和分化。神经元和突触的动力学则通过门控循环单元(GRUs)来建模。所有这些组件一起构成了一个可学习的、广泛的LNDP家族,我们可以通过优化它们来解决各种不同的强化学习任务。简而言之,LNDPs是旨在模仿生物大脑复杂动力学和可塑性的计算模型,通过结合先进的神经网络技术如Graph Transformers和GRUs,它们能够处理复杂的机器学习挑战。

图片

受探索自发活动(Spontaneous Activity,SA)在发展生物神经网络以及人工神经网络中作用的研究工作启发,研究团队进一步扩展了系统,加入了基于自发活动(SA)使预体验发展成为可能的机制。研究人员使用了一个简单的可学习的感官神经元随机过程来模拟自发活动(SA)。利用自发活动(SA)使得在预体验过程和经验依赖学习两个阶段都能重复使用相同的组件。

自发活动是指在没有外部刺激的情况下,神经网络内部自发产生的活动,这种活动在生物神经系统的发展和成熟中扮演着重要角色。研究者们从多个文献中获得了灵感,这些文献探讨了自发活动在生物及人工神经网络中的作用。基于这些理论,他们设计了一个机制,这个机制允许网络在没有任何具体经验之前就开始发育和组织,即“预体验发育”。这种机制是通过建模一个简单的、可学习的感官神经元随机过程来实现的,这意味着网络中的神经元可以自发产生活动,而这种活动又可以被学习和调整。

图片

更进一步,自发活动的应用不仅限于预体验发育阶段,它还能在之后的经验依赖学习中发挥作用,即当网络开始接触真实世界的数据并从中学习时。这意味着,在预体验发育和实际学习过程中,网络可以重用相同的组件,这表明网络的某些部分在早期阶段通过自发活动“预热”,随后可以在后续的学习中发挥更有效的作用。因此,自发活动不仅是神经网络发育的一个关键因素,而且也是提高网络学习效率和灵活性的一种策略。

自发活动(SA)在神经网络发育中的作用,来设计和改进他们的系统。自发活动被认为在神经网络的发育和功能成熟中扮演重要角色。在实际经验(例如,从环境接收到的信息)到达之前,神经网络就能够开始形成和发展。他们通过一个简单的、可学习的感官神经元随机过程来模拟这种自发活动,这实际上是在模拟神经元自发产生活动的概率性行为,这种活动可以被学习和优化。

图片

使用自发活动(SA)作为驱动预体验发展的机制,意味着在没有具体经验输入的情况下,网络也可以开始构建自己的内部结构和连接。更重要的是,这种机制允许在预体验发展和后续的经验依赖学习阶段重用相同的网络组件。这意味着网络可以在早期阶段通过自发活动“预热”和自我组织,然后在接触到实际经验后,这些已经形成的结构可以更快地适应和学习,提高整体的学习效率和适应性。这种设计思路体现了对生物神经网络发育原理的深刻理解和应用,同时也增强了人工神经网络的智能和自主性。

通过SA驱动的发展和经验依赖适应的经验前学习,LNDPs代表了一种很有前途的新型自组织神经网络的途径,可以缩小未来自然适应和人工适应之间的差距。综合来看,LNDP在人工神经网络自组织和适应性方面的有着显著的效果:

LNDP的有效性:LNDP模型能够引导神经网络从零开始或随机状态,通过活动和经验依赖的过程自组织成为一个功能性网络,这个网络具备解决控制任务的能力。这表明即使从无序的状态出发,LNDP也能够帮助网络构建出有序的、能完成特定任务的结构。

结构可塑性的优势:文中提到结构可塑性(即网络结构随时间和经验的变化能力)在需要快速适应或面对非稳态(不断变化的)动态环境的任务中提高了性能。这意味着网络能够根据环境的改变迅速调整自身结构,从而更有效地应对变化。

自发活动的重要性:在正式接触环境前,网络通过自发活动经历一个发育阶段,这有助于网络预先形成功能单元。自发活动驱动的发育阶段可以看作是一种预训练过程,它使网络在正式开始学习前就能形成初步的功能结构,为后续的适应性和学习打下基础。

总之,LNDP模型结合结构可塑性和自发活动,不仅能够促使网络从无序到有序的自组织,还能增强其在复杂和多变环境下的适应能力和学习效率。

在具体实现操作上,先给定的时间点t,将一个神经网络表示为一个有向图Gt,它包含N个节点(神经元),该图完全由元组<At, I, O, ht, et, vt, wt>描述。At是N×N的二进制邻接矩阵,指示两个节点之间的边是否存在。I和O分别是输入和输出节点的集合。ht∈HN和et∈EN^2分别是节点和边的状态,其中H≡R^dh,E≡R^de。边状态通过邻接矩阵进行掩码,即邻接矩阵为0的位置,边状态设置为零。vt∈RN是节点的激活值,wt是实数值权重矩阵。我们将节点i的状态记为hi,节点i和j之间边的状态记为eij。

然后将这些描述过程生成一个LNDP的组件。这些组件可以是参数化的可学习函数。完整的参数集为θ。初始化过程中,将G0≡<A0、I、O、h0、e0、v0、w0 >作为初始网络,它是从一个分布的Ψ = P(G 0 = g)中采样的。输入和输出神经元在代理的生命周期中保持固定。节点G→HN为节点函数,根据完整的图状态更新节点的状态,节点状态可以用来定义神经元参数,如偏差。

其定义为:

图片

在神经网络模型中,每个节点(神经元)的状态更新是一个关键过程,它决定了网络的整体行为和学习能力。通过使用完整的图状态来更新节点,即考虑到整个网络结构的信息,模型能够捕捉到节点之间的复杂相互作用,这类似于生物神经网络中神经元之间的信息传递。

图神经网络(Graph Neural Networks,GNNs)是一种特别设计来处理图结构数据的神经网络架构,它能够处理节点之间的复杂关系,通过消息传递机制,允许信息在网络中传播和聚合。在节点更新过程中,可以融合来自相邻节点的信息,这使得模型能够学习到更深层次的结构特征和节点间的关系。

图片

在节点更新中考虑到活动状态(vt)是至关重要的,因为这使得模型能够实现活动依赖的机制,即神经元的行为和可塑性可以依赖于其当前的活动水平。在生物学中,神经元的活动状态(如放电频率)会影响其可塑性,即神经元之间连接的强度和稳定性。在神经网络模型中,类似地,节点的状态可以影响其与其他节点的连接权重,进而影响整个网络的动态特性。

将节点的状态比作神经元的分子或膜状态,形象地说明了模型的这一方面。就像真实的神经元一样,模型中的节点状态可以反映其内部的“化学”状态,这些状态的变化能够影响到神经元的可塑性和动力学,从而影响到网络的学习和适应能力。通过这种方式,模型能够更好地模拟生物神经网络的复杂行为,包括学习、记忆和适应环境变化的能力。

边的状态通过一个函数fθ:H×H×R→E来更新,该功能基于连接节点的状态和从环境接收到的奖励信号rt来更新它们的状态。

我们将这个函数称为边或突触模型:

图片

接下来,是一个权重模型函数fθ w:E→R将一个标量权重关联到每条边的状态。请注意,如果节点使用活动进行更新,那么一些边更新函数可能能够学习与活动相关的规则。

如Hebbian学习:

图片

结构可塑性网络中的结构可塑性是通过允许添加新的边(即突触发生)和去除现有的边(即修剪)来实现的。F+θ:H2→[0,1]是一个突触发生函数,它定义了在每个时间步长在两个节点之间添加一条边(突触)的概率。

增加边的(突触)概率:

图片

类似地,f-θ:E→[0,1]是剪枝函数,它将去除图中删除一条边的概率(即将其在邻接矩阵中的条目设置为0)定义为其状态的函数。

删除边的(突触)概率:

图片

然后我们通过一个动态模型ϕ,根据过去的激活情况、当前的权重矩阵wt、节点的状态ht和观察值ot来定义网络动力学。

 网络动力学:

图片

LNDP组件由三部分构成,分别是节点模型(Node model)、边模型(Edge model)、网络拓扑结构(Network topology)。

节点模型:节点模型节点特征ht、激活vt以及附加的图结构特征通过一个图转换层GT(Graph Transformer)输入,其输出作为输入输入到GRU,以获得新的节点状态h t+1。

图片


边缘模型:边缘模型的边缘也用GRU建模,并将突触前和突触后节点的状态和最后收到的奖励作为输入。

图片

网络拓扑结构:网络拓扑网络被分为输入(蓝色)、隐藏(黑色)和输出(红色)神经元。连接只能存在于从输入到隐藏、从隐藏到隐藏、从隐藏到输出之间。有些节点可能根本没有连接,而且隐藏节点的总数是不变的。超参数µconn和σconn定义了初始网络密度的分布(截断的正态分布)。

图片

上面内容主要描述了一种基于图变换器层(Graph Transformer)的LNDPs实例,用于节点更新。更具体地说,节点使用门控循环单元(GRUs)进行更新,并将图变换器层的输出作为输入,这使节点能够“感知”网络并自我组织。图变换器层的输入是节点激活vt、节点状态ht以及与节点相关的结构图特征的拼接。结构特征包括入度、出度、总度,以及一个one-hot编码,用于指示节点是输入节点、隐藏节点还是输出节点。此外,在注意力层引入了边特征。并且还增强了边特征,添加了结构特征,包括2比特位指示节点间是否有前向或后向连接,以及1比特位指示边是否是自环。

直观上,图变换器层用于建模节点间交互,使它们能够自我组织和区分。研究团队选择GT而不是其他图神经网络架构,因为它似乎更容易训练。重要的是,它避免了节点状态的坍塌(即所有节点状态变得相同),这是NDPs中反复出现的问题。GT输出的节点嵌入然后被送入GRU单元以更新节点状态(ht+1i=GRU(hti, xti),其中xti是GT层的输出)。值得注意的是,所有节点共享相同的GRU参数,这有助于网络学习通用的动态行为。突触也被建模为具有共享参数的GRUs,其输入是前突触和后突触神经元状态、它们的活动以及上一时间步接收到的奖励r的拼接,这有助于建模突触可塑性,即突触强度随时间和经验变化的能力。

图片

在实验阶段,研究团队使用了三种经典的控制任务(Cartpole, Acrobot and Pendulum)和一种非平稳动力学的觅食任务,这些任务的设计涵盖了不同的控制难度和环境动态性,以全面评估模型的适应性和学习能力。对于所有的任务,一个代理的适应度被定义为该代理在三个不同的试验(即不同的随机种子)中的平均回报。

推杆(Cartpole):这是一个离散控制任务,其中代理控制一个顶部带有杆的推车。代理必须平衡杆,使其保持直立。此任务具有4维输入空间和2维离散动作空间。动作由激活程度最高的输出节点确定。最优奖励是500分。重要的是,当从随机网络开始(正如LNDPs的情况)时,代理很难直接找到解决环境问题的方案,因为代理需要在短时间内从随机网络转变为功能性网络。因此,我们重复执行回合而不重置网络状态,以便给模型足够的时间去适应。

图片

双摆(Acrobot):这是一个双连杆摆的控制问题,需要通过控制关节的角度使末端连杆达到特定的高度或者维持在某个角度。是一个离散控制任务,其中代理的目标是通过向关节施加扭矩,使初始状态下垂挂的双摆升至某一高度以上。该环境拥有一个六维输入空间和一个三维离散输出空间。常被用作测试和验证强化学习算法的基准。在该任务中,代理面对的是一个双连杆摆系统,其初始状态为向下垂挂,目标是通过控制连杆间的关节扭矩,使整个系统能够摇摆起来,直至连杆的末端超过设定的高度线。这要求代理不仅需要掌握正确的控制策略,还需要对物理系统的动态特性有深入的理解。

图片

摆锤(Pendulum):这是一个连续控制任务,代理的目标是从向下垂挂的起始状态,将摆锤平衡在竖直位置。观测空间为三维,而输出则为单一连续值。单摆问题,通常涉及将摆从一个不稳定状态(如倾斜状态)恢复到稳定状态(如垂直向上)。摆锤控制任务是强化学习和控制理论中常见的基准问题,它模拟了一个单摆的物理情景,其中摆锤从向下垂挂的状态开始,代理的任务是通过施加连续的力矩,使摆锤稳定在竖直向上的平衡位置。

图片

觅食(Foraging:):在一个由五个单元格构成的简单一维网格中进行,代理拥有一个三维离散动作空间,对应着向右移动、向左移动和静止不动。代理从中间单元格开始,只能感知其当前所在的具体位置。食物源会被随机放置在网格的一端。当代理到达食物处时,它将获得10分的奖励,随后其位置会被重置。若代理在10步内未能找到食物,环境也将被重置。每当环境重置时,食物位置有概率pswitch(除非另有说明,否则设为0.5)发生改变,这使得环境呈现出非稳态特性。这个任务涉及到在一个不断变化的环境中寻找资源,要求代理能够适应环境的变化,这比静态环境中的任务更具挑战性,因为它要求代理具备终生学习和适应新情况的能力。

图片

为了评估代理在这些任务上的表现,研究者定义了一个评价标准,即代理的适应度(fitness)。适应度是通过计算代理在三次不同试验中的平均回报来确定的,这里的“不同试验”指的是使用不同的随机种子进行实验,以确保结果的多样性和可靠性。这种方法可以减少由于随机性引起的偏差,确保评估结果更准确地反映代理的真实性能。

对于所有条件,结构可塑性的LNDP在Cartpole和觅食任务中的表现优于无结构可塑性的LNDP。没有结构可塑性的模型不在空网络(μ_conn = 0)上进行评估,因为显然它们会失败(网络将保持为空)。下图展示了具有不同初始化分布(其中μ_conn是平均连接概率,σ_conn是其方差)和结构可塑性(SP)启用(红色)与禁用(蓝色)的LNDP的训练曲线。

图片

这里提到的初始化分布指的是网络在开始训练时的连接概率分布。μ_conn和σ_conn分别表示连接概率的平均值和方差,这反映了网络初始连接的密集程度和随机性。结构可塑性(structural plasticity ,SP)是指网络结构(如连接方式和拓扑)可以根据学习和环境反馈进行动态调整的能力。在图表中,红色曲线代表启用了结构可塑性的LNDP,而蓝色曲线则代表禁用了结构可塑性的LNDP。

研究结果显示,在Cartpole和觅食任务中,具有结构可塑性的LNDP在所有条件下都表现出优于没有结构可塑性的LNDP。这意味着结构可塑性有助于网络更好地适应环境,提高学习效率和任务表现。对于那些没有结构可塑性(PS)的模型,研究者并没有在完全空的网络(μ_conn = 0)上进行评估,因为在这种情况下,网络不会有任何连接,因此无法进行任何有意义的学习或任务执行,必然会失败。

在具有非平稳奖励的觅食环境中,研究人员发现SP模型始终比非SP模型达到更高的平均种群适应度,而两者都达到了相似的最大适应度。需要注意的是,观察平均适合度更有用,因为最大的适合度很容易偶然达到。这些结果表明,SP在非平稳设置下促进了更好的适应性。大多数找到的解决方案都出现在奖励最后获得的一边,如果没有找到,则回到另一边,当转换概率低于或等于50%时,这是一个最优策略。有趣的是,这些变化可以通过权重变化或结构变化来实现,即在隐藏节点和对应于新的最佳选项的输出节点之间创建兴奋性连接。

图片

研究人员在Acrobot实验中没有发现显著差异,没有SP的模型比有SP的模型达到更高的平均适应度。Pendulum环境作为唯一的连续控制问题,其复杂性和挑战性远超其他任务。连续控制意味着模型必须处理连续的动作空间,这比离散控制任务更加复杂,要求模型能够精细地控制输出,以适应动态环境。在Pendulum环境中,只有结构可塑性模型,且是从完全空的网络开始,即网络中没有任何连接(μ_conn = 0),并且初始化连接概率的方差相对较小(σ_conn = 0.1)时,才找到了解决方案。

这表明,在面对极其复杂和动态的环境时,结构可塑性(SP)对于网络的适应性和学习能力至关重要,它能够帮助模型在空白状态下快速构建有效的网络结构,以应对任务需求。同时,较低的初始化方差可能有助于网络在早期阶段更稳定地构建连接,避免过多的随机性干扰学习过程。

在CartPole环境中,没有自发活动(SA)的模型面临的主要挑战是在第一轮中快速适应,以防止杆立即倾倒,这需要极高的适应速度。具备SA的模型则能够在第一轮中展示出解决任务的先天技能,这归功于它们能够以自我组织的方式,独立于外部奖励达到功能性网络的状态,即SA使得模型能够在没有具体目标或奖励的情况下,通过自我组织发展出解决任务所需的基本能力。

图片

观察到终生学习在具备SA的模型中,在训练的后期阶段出现,这可能是因为初期的训练更多地集中在提升模型的先天技能,而非学习能力。然而,当训练时间足够长时,没有SA的模型也能展现出快速适应的能力,但这是在大量训练后的结果,显示出样本效率的提升,即模型能够更有效地利用样本进行学习。

有趣的是,没有经历SA阶段的LNDPs在第二轮后往往停止进步,而经过SA训练的模型则在各轮之间表现出了更强的差异性,这可能表明终生学习与SA驱动的发展之间存在协同效应,即两者结合能够产生比单独使用任何一种策略更强大的适应性和学习能力。

在与NDP的对比中,LNDP在觅食和CartPole任务中表现出了明显的优势。特别是在觅食环境中,NDP无法适应环境变化,因为它的适应性受限于固定的网络状态,而LNDP则能够通过调整其状态来适应环境,这再次证明了SA和终生学习能力对于提高模型适应性和表现的重要性。

下图展示了在CartPole环境中,LNDPs(终生学习神经发育程序)的各表现:

图片

(a) 训练曲线显示了在每个回合中,群体的平均奖励情况。这可以帮助研究者理解模型在不同回合中学习进度和性能的变化。

(b) 描述了由一个经过进化优化的LNDP在5个回合训练中获得的每一回合奖励的分布。值得注意的是,第5到第9回合的奖励分布超出了训练时所见到的分布范围,这可以评估模型在未见过的情况下的泛化能力。

(c) 图形化地展现了LNDP通过自发活动(SA)阶段的网络演化过程。节点和边的颜色分别编码了状态ht和权重wt,直观地展示了网络结构和权重随时间的演变。

(d) 展示了在权重分布空间中,单个进化后的LNDP的发育轨迹。通过展示不同随机初始化下的1000条轨迹,可以观察到代理在权重空间中的发育路径和成功或失败之间的关联。

(e) 描述了网络激活vt随时间变化的轨迹,通过主成分分析(PCA)降低了维度,使得高维数据可视化,便于观察网络动态特性的变化。

这些图表和描述共同揭示了LNDPs在CartPole任务中的学习动态、网络结构变化、以及权重和激活随时间的演化规律,为理解LNDPs的工作机制和性能提供了深入的洞察。

通过将LNDP和NDP在Foraging和Cartpole环境中的性能对比,最终发现NDP是通过在生命周期内(即在SA阶段之后)消融网络更新而获得的。这两种模型都经过了100个SA步骤。虽然这两种方法在Cartpole领域的性能更相似,但觅食任务需要一个代理在其生命周期内进行适应,而只有LNDP能够做到这一点。

图片

研究团队在实验过程中,观察到网络发展和性能的动态变化中存在显著的变异性,这意味着不同的运行和实验条件下,网络的运作机制和表现可能会有很大的不同。然而,即使在这样的变异性中,也有一些共同的特征和趋势显现出来。

关键时期的出现是其中一个显著特点,即在特定的短暂时间段内,网络会发生大量的变化和重组。这类似于生物发育过程中的敏感期,此时网络对外界刺激和内部活动的响应更为强烈,易于形成新的连接和结构。一旦关键时期过去,网络就会趋于稳定,变化变得很少,这可能是在适应性和稳定性之间寻求平衡的一种机制。适应性允许网络根据环境变化进行调整,而稳定性则保证了网络在一定程度上保持其功能,避免过度变化导致的性能下降。

图片

此外,研究中还观察到,无论是具有自发活动(SA)的LNDPs,还是没有SA的LNDPs,在CartPole环境中都展现出了高度的时间一致性,即在训练中未曾遇到的新情境下,网络仍然能够保持稳定的性能,甚至在某些情况下,解决方案还在持续改进。这表明,LNDPs具有良好的泛化能力,能够在未见过的环境中保持其功能,这在很大程度上得益于其内在的学习和适应机制。自发活动(SA)可能在此过程中起到了积极的作用,通过预先建立网络的基础结构和功能,使网络在面对新任务时能够更快地调整和优化。

总的来说,通过sa驱动的发展和经验依赖适应的经验前学习,LNDPs代表了一种很有前途的新型自组织神经网络的途径,可以缩小未来自然适应和人工适应之间的差距。通过整合自发活动(SA)驱动的预体验学习与依赖于实际经验的适应性学习,LNDPs能够促进人工神经网络的自组织能力和适应性,使其更接近自然界中生物体的适应性水平。

LNDPs能够实现从宏观结构到微观动态的自我组织,既能在无具体任务时通过自发活动进行预学习,又能在面对具体任务时通过经验学习进行适应性调整。这种双重学习能力使得LNDPs在模仿自然界的适应性机制方面迈出了重要一步,有望在未来的人工智能发展中发挥重要作用,推动人工神经网络向更高级的智能形态演进。

欲获取关于本文内容——NDP及LNDP(Lifelong Neural Developmental programs,终身神经发育计划)的系列原论文项目代码,请到对话页面回复关键词:LNDP

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!