调教小说何恺明新作出炉！异构预历练Transformer颠覆骨子视觉学习范式

发布日期：2024-10-07 00:36 点击次数：108

剪辑：桃子乔杨调教小说

【新智元导读】通用机器东说念主模子，若何管束异构性难题？来自MIT、Meta FAIR团队全新提议异构预历练Transformer（HPT），无谓从新历练，即可破解。

通用机器东说念主模子，刻下最大的毁坏即是「异构性」。

也就是说，必须收罗全标的——每个机器东说念主、任务和环境的特定数据，而且学习后的政策还不行泛化到这些特定建立除外。

由此，AI大神何恺明带队的MIT、Meta FAIR团队，提议了异构预历练Transformer（HPT）模子。

即预历练一个大型、可分享的神经蚁集骨干，就能学习与任务和机器东说念主花样无关的分享表现。

浅陋讲，就是在你的政策模子中间甩掉一个可彭胀的Transformer，无谓从新动手历练！

扣问东说念主员将不同骨子视觉输入对皆到协调的token序列，再处理这些token以适度不同任务的机器东说念主。

临了发现，HPT优于多个基准模子，并在模拟器基准和真确全国环境中，将未见任务微调政策性能，栽种20%。

值得一提的是，这项扣问被NeurIPS 2024继承为Spotlight。

在真确环境中，HPT加抓下的机器东说念主骨子，粗野自主向柴犬投食。

而且，即即是洒了一地狗粮，机器东说念主也能用抹布，将其收到一皆。

而在模拟环境中，HPT架构让机器东说念主任务操作，愈加精确。

接下来，一皆深度了解下异构预历练Transformer（HPT）模子的中枢身分吧。

搭建「异构性」桥梁

如今，构建特定的机器东说念主政策很贫寒，其中最大的难题就是数据收罗和穷乏泛化性。

不同硬件的机器东说念主在物理上具有不同的骨子（embodiment），每种实例不错有不同的「骨子嗅觉」（proprioception），包括不同的解放度、终端扩充器、通顺适度器和为特定应用构建的责任空间成就。

此外，另一种常见的异构性就是视觉异构性。

不同机器东说念主搭载了不同的视觉传感器，而且相通配备在不同位置（比如手腕/第三视角）；每个机器东说念主的外不雅也会因环境和任务而有很大互异。

恰是由于这些难以朝上的异构性毁坏，因此相通需要收罗每个机器东说念主、任务和环境的特定数据，况兼学习到的政策不行泛化到这些特定建立除外。

固然机器东说念主规模照旧麇集了海量的开源数据，但异构性让数据集很难被共同业使。

从图4中就不错看出，只是是按环境分类，机器东说念主规模的数据就能被「中分」为良友遥控、模拟、萧瑟、东说念主类视频等接近4等份。

机器东说念主规模数据集的异质性

近些年来NLP和CV规模的突飞大进，让咱们看到了澈底窜改机器学习规模的一个历史经历：对大范畴、高质料和各种化数据进行预历练，不错带来相通优于特定模子的通用模子。

话至此处，现在机器东说念主规模的一个中心问题浮出水面：若何行使异构数据来预历练机器东说念主基础模子？

除了更多半据带来的公正除外，不同任务的历练还不错增强表现（representation）的通用性。

这类基础模子将会在各种任务上罢了高奏遵循、对极端值愈加慎重，况兼粗野纯真地稳当新任务。

那么，到底应该若何充分行使异构化的数据集？

如图1所示，一个基本的想路是，将来自不同规模和任务的输入信号映射到高维表现空间，并让它们推崇出一致的缩放行径。

之后，只需要最少的微调，就不错将得到的高维表现迁徙到特定的下流任务，同期获取精粹的性能。

HPT见地表现图

HPT所要作念的，就是找到一种分享的政策「言语」，粗野对皆来自不同预历练的异质的骨子嗅觉和视觉信息，将我方的信号映射到分享的潜在空间。

HPT模子架构

HPT全称为Heterogeneous Pre-trained Transformers，是一个架构系列，采用了模块化的想象想路，从异构骨子的数据中进行可彭胀学习。

受到多模态数据学习的启发，HPT使用了特定于骨子的分词器（stem）来对皆各种传感器输入，映射为固定数目的token，之后送入Transformer结构的分享骨干（trunk），将token映射为分享表现并进行预历练。

在对每种骨子的输入进行标志化（tokenize）之后，HPT就运行在一个包含潜在token短序列的分享空间上运行。

论文提到，这种档次结构的动机，亦然起头于东说念主类躯壳的脊髓神经回路层面中，特定通顺响应和感知刺激之间的反馈轮回。

预历练完成后调教小说，使用特定于任务的动作解码器（head）来产生下流动作输出，但所用的实例和任务在预历练时期都是未知的。

预历练包含了特出50个单独的数据源，模子参数特出1B，模子的代码和权重都已公设备布。

HPT架构

stem结构

从上头的描摹来看，要管束异构性问题，最径直和最关节的就是若何历练stem，将来自异构的骨子和模态的传感器输入对皆到分享表现空间中。

如图3所示，stem包含两个主要部分，即骨子感受分词器和视觉分词器，将来自不同骨子的异构输入映射为固定维度、固定数目的token，让trunk粗野以相易的形势处理。

其中的关节想想，是行使cross-attention机制，让固定数目的可学习token矜恤到各种特征。

固然这篇论文主要处理骨子嗅觉和视觉，但处理触觉、3D和动作输入等其他类型的异构传感器信号也不错在stem中纯真彭胀。

HPT中的stem架构

按照时刻章程单寂然理每个模态后，将扫数token拼接在一皆并添加额外的模态镶嵌和正弦位置镶嵌，就得到了trunk的输入序列。

为了幸免过拟合，stem被想象为仅有极少参数，只包含一个MLP和一个防御力层。

trunk结构

行为预历练的中枢组件，trunk是一个有潜在d维空间的Transormer结构，参数目固定，在不同的骨子和任务之间分享，以拿获复杂的输入-输出相关。

预历练

给定从不同划分中采样的异构骨子的数据集_1，…，_k，…，_K ，令_k={τ^(i)}_{1≤i≤M_k} 表现_k中一组轨迹M_k，τ^(i)={o_t^(i)， a_t^(i)}_{1≤t≤T}表现第i个最大长度为T的轨迹，每个元组包含observation变量和action变量。

历练缱绻如公式（1）所示，需要最小化数据纠合的以下失掉：

其中ℒ是行径克隆失掉，计较为推断恶果和真确标签之间的Huber 失掉。

该历练经过有两个数据缩放轴：单个数据集D_k的体量M_k，以及数据集总额K。

在预历练阶段，每次迭代时仅更新trunk部分参数，况兼基于历练批次采样更新特定于每个异构骨子和任务的stem和head部分。

论文进行了一系列预历练实验，包括不同范畴的蚁集参数和数据集大小，旨在陈说一个问题：HPT预历练在跨域异构数据中是否展现出了彭胀才调？

总体而言，某种进度上，HPT跟着数据集数目、数据各种性、模子体量和历练计较量呈现出缩放行径。

HPT蚁集正式信息，宽度表述turnk transformer的潜在维度，深度表现block数目，默许建立为HPT-Small型号

预历练数据集正式信息，默许使用来自RT-X的27个数据集的16k个轨迹进行历练

数据缩放

数据方面，如图5所示，即使在异构进度闲适增大的骨子中也具有踏实且可彭胀的考据失掉。

此外，作家还发现，计较量（额外于每次历练运行看到的样本量）和数据量需要共同彭胀，才能在历练经过中更接近拘谨。

epoch缩放

如图6所示，增多批大小（左）额外于灵验地彭胀历练token数（右），相通不错提高模子性能，直至临了拘谨。

另一个不雅察恶果是，使用划分式方法，在每个历练批中团聚尽可能更多的数据集，用更大的批大小来弥补异构历练中的较大方差。

模子缩放

如图7所示，固定数据集和轨迹数目，沿着模子大小（从1M到1B）进行缩放，并闲适将批大小从256增多到 2048（模子大小每增多一倍），并使器具有170k轨迹的更大数据集。

不错不雅察到，当咱们彭胀到具有更大计较量（红线）的更大模子时，预历练不错罢了较低的考据失掉，直到达到踏实水平，但莫得发现缩放模子深度和模子宽度之间存在权贵互异。

图8中的实验恶果标明，HPT不错额外灵验地处理异构数据。尽管与真确机器东说念主存在很大的差距，但对其他骨子的数据集（举例模拟环境和东说念主类视频数据集）进行预历练是可能的。

迁徙学习

如上，作家使用了临了一次迭代中考据集上的失掉来评估预历练。

接下来，他们将通过实验，去考据机器东说念主在迁徙学习中，任务奏遵循的问题：

预历练的HPT模子，是否不错迁徙到模拟和现实全国中的全新骨子、任务、以及环境中？

模拟环境

如下图10（a）中，扣问东说念主员在闭环模拟中测试了下流任务的模子，并不雅察到使用HPT-B到HPTXL预历练模子，提到的任务奏遵循。

在图10（b）中，他们在最近发布的Simpler基准上运行HPT，它允许在高保真模拟上与Octo、RT1-X、RT2-X进行比较。

在Google EDR机器东说念主中，扣问东说念主员重心矜恤三个不同的任务「关闭抽屉」、「选可乐罐」。

关于每个任务，他们测试了几种不同的开动化，扫数任务所有有300+ episode。

现实全国

这里，作家采用了与前一节访佛的迁徙学习方法，并在真确全国的评估左券下，评估预历练的HPT表现。

他们以256批大小和

历练率历练政策20000次迭代。

图12浮现的定量恶果，扣问东说念主员不雅察到，预历练政策比拟No-Trunk和From-Scratch基准获取了更好的奏遵循。

额外是在倒水的任务中，From-Scratch基准使用了源流进的扩散政策架构，以展示预历练表现的纯真性。

色域色吧

图11定性恶果浮现，作家不雅察到预历练的HPT在濒临不同姿势、物体数目、相机成就、光照条款时，推崇出更好的泛化才协调鲁棒性。

在表3中，作家对Sweep Leftover任务进行了消融扣问。

尽管最近数据范畴激增，但由于异构性的存在，机器东说念主学习的通用性仍然受到收尾。

扣问东说念主员提议的HPT——一种模块化架构和框架，通过预历练来应酬这种异构性。

他但愿这一不雅点粗野启发改日的责任，以处理机器东说念主数据的异构性实践，从而为机器东说念主基础模子铺平说念路。

作家先容

Lirui Wang

Lirui Wang是MIT CSAIL的博士生，导师是Russ Tedrake解释。

在此之前，他曾在华盛顿大学获取学士和硕士学位，导师是Dieter Fox解释。

他的扣问兴味在于机器学习和机器东说念主学。尤其是，他对设备粗野在复杂和非结构化的真确全国环境中，泛化的算法和系统感兴味。

为了罢了这一丝，他一直奋勉于扣问粗野跟着异类数据进行彭胀的「舰队学习」（fleet learning）。

Xinlei Chen

Xinlei Chen是旧金山Meta Fair实验室的扣问科学家。刻下的扣问兴味是预历练，额外是自监督、多模态视觉表征的预历练。

他曾在CMU言语时候扣问所获取博士学位，就读时期也在机器东说念主扣问所责任。此前，他获取了浙大的学士学位。

Jialiang Zhao

Jialiang Zhao刻下是 MIT CSAIL感知科学小组的博士生，导师是Edward H. Adelson解释，并与Russ Tedrake 、何恺明协调。

Kaiming He

何恺明刻下是麻省理工学院电子工程与计较机科学系副解释。

他提议的最为知名的扣问是深度残差蚁集（ResNets），并被日常应用到当代深度学习模子当中，比如Transformer（GPT、ChatGPT）、AlphaGo Zero、AlphaFold、扩散模子等。

在加入MIT之前，何恺明于2016年至2024年担任Facebook AI Research的扣问科学家，并于2011年-2016年担任微软亚洲扣问院（MSRA）的扣问员。

他曾在2011年在香港汉文大学获取博士学位调教小说，并于2007年在清华大学获取学士学位。

上一篇：安捷影音播放器内托轻松穆德里克送传中，维加头球破门打进蓝军处子球

下一篇：安捷影音播放器《阿凡达5》的紧要改革：潘多拉的发源之谜