2021年10月,谷歌的领袖Jeff Dean引领着AI领域迈出了一大步,他提出了引人注目的Pathways概念,旨在开创下一代AI架构,实现在一个巨大的模型内完成多种任务。对于那些早在AI领域研究的同行们而言,这种多功能的网络实际上类似于2017年提出的MoE(Mixture-of-Experts)概念。然而,尽管现如今的预训练大模型表现出色,但仍然面临着三个根本性的问题:

  1. 当前的模型只能应对单一任务。
  2. 当前的大部分模型只专注于一种感知输入,如文本或图像。
  3. 当前的模型都是密集型的,尽管有研究显示,很多参数是多余的,用网络可以做哪些任务_网络任务是什么_网络任务发布例如剔除几个注意力头对结果影响不大。这也导致计算效率不高。

然而,我个人认为,前两个问题是可以被大型模型解决的,真正的瓶颈在于第三个问题。现今的大模型或许取得了不错的效果,但对于普通团队来说,训练和应用仍然并不友好。为了实现真正的应用,必须对模型进行“瘦身”。针对这个问题,目前有三种方法:

  1. 量化:将FP32转化为FP16或INT8进行计算。然而,这种方法的上限相对较低(显然不能压缩到Bool类型)。
  2. 蒸馏:这是近年来备受瞩目的方法,但将模型压缩为小的密集模型也受到参数量的限制,存在效果上限,同时也有一些无效的参数。
  3. 剪枝:删除一些层、神经元或权重。由于过去几年稀疏计算底层支持不佳,然而现在看来,这是最有可能的方法。

Pathways则提出了一种更类似于人脑逻辑的概念,通过不同的子网络执行不同的功能。在训练过程中,模型会动态地学习如何使用特定的子网络来解决不同任务,在推理时只需要激活部分网络来处理特定任务。如下图所示,这种方法在保持整体模型容量(参数量)的同时,显著缩短了推断时间。 展望更远的未来,Pathways也为持续学习提供了可能性。当有新任务出现时,只需要在现有模型上增加一些网络,不会影响之前的网络参数,同时在多任务学习下也能提升整体网络的泛化能力。

一、SkillNet 然而,遗憾的是,Jeff Dean并没有详细公布方案。然而,最近腾讯AI Lab以此概念为启发进行了一些尝试,为我们带来了新的探索。 《One Model, Multiple Tasks: Pathways for Natural Language Understanding》 SkillNet的方法是,为网络任务是什么_网络任务发布_用网络可以做哪些任务每个子网络定义一个“技能”,在预测时只激活与任务相关的技能。

他们将这种技能添加到FFN层,方法借鉴了Switch Transformer。如果多个技能同时激活,他们会使用平均池化来融合。

在训练时,他们从不同任务中采样一个批次,针对任务目标优化相应的技能。鉴于不同任务的样本数量不同,他们设定了超参数来控制采样分布,实验结果表明,遵循数据分布的方法效果最佳,即数据量较大的任务采样更多,数据量较少的任务采样更少。 此外,SkillN网络任务发布_用网络可以做哪些任务_网络任务是什么et的网络结构支持预训练,如MLM任务可以训练S2、S7,NSP任务可以训练S1、S3、S7。 SkillNet在6个中文数据集上进行了实验,结果显示整体效果优于纯精调,同时也超越了密集模型的多任务和MoE设置:

相对于多任务学习,SkillNet更具效率,同时在技能层面上进行定义,并通过技能的组合解决不同任务。 相对于MoE,SkillNet具有更强的可解释性,同时也不需要复杂的路由策略来选择合适的专家。

二、总结 SkillNet是对Pathways概念的初步尝试,这种结构的一大优势在于技能的复用和新增。在增加新任务时,可以直接复用之前训练好的模块,也可以新增与任务更相关的技能。之前,我一直困扰于多任务的一个问题,即对于模型而言,泛化性和专业性之间存在一定的矛盾。当我们试图构建一个通用且完美的模型时,引入另一个目标可能会对其他目标产生不利影响。而SkillNet的方法则是将目标进行分解,解耦成一些“底层能力”,从而避免了多任务之间的相互网络任务发布_用网络可以做哪些任务_网络任务是什么影响。

然而,我认为这种解耦仍然有些刻意,并且需要一些人工干预(将任务拆分为适当的技能)。与MoE相比,让模型自动解耦的方法更加“智能”。此外,仍有许多值得探索的领域,例如是否可以动态选择更少的注意力头,以及除了Transformer之外,是否有更好的模块可以应用在这种架构下。SkillNet是基于BERT-base进行的,未来的探索可能会导致一个更加轻量的方向,避免了大型模型的繁重卷积。 更长远来看,神经网络与人脑的模式之间仍然存在很大差距。比如,MindSpore的金雪锋曾提到人脑的一个关键特征是局部BP,即某个模块的独立学习优化,然而Pathways架构虽然将模块分解,但本质上仍然是全局BP。

网络任务发布_网络任务是什么_用网络可以做哪些任务

———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站长微信/QQ: 402257332

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注