1. 首页 > 实时资讯

LeCun的世界模型现身 Meta震撼发布首款“类人”模型 了解世界后完成一半图 自监督学习可期

LeCun的世界模型问世,Meta震撼发布了第一个“人形”模型。了解世界后,就完成了一半的画面,自我监督学习。 LeCun的世界模式终于来了,可以说是万众期待。既然大模型已经学会了像人一样认识世界和推理,那么AGI是不是离我们不远了?

一直以来,LeCun理想中的人工智能一直是通向人类水平的人工智能,为此他提出了“世界模型”的概念。

近日,在一次公开演讲中,LeCun 再次批评了GPT 大模型:基于概率的自回归生成的大模型根本无法破解幻觉问题。甚至直接断言,GPT模型活不过5年。

今天,LeCun 终于离梦想又近了一步!

Meta Shock 发布了一个“类人”人工智能模型I-JEPA,它可以比现有模型更准确地分析和补全缺失的图像。

论文地址:https://arxiv.org/abs/2301.08243 重点:I-JEPA在填补缺失片段时,使用了关于世界的背景知识!而不是像其他模型那样只看附近的像素。

“世界模式”的概念提出已经一年多了,LeCun即将实现属于自己的星海。

今天,训练代码和模型是开源的。该论文将于下周在CVPR 2023 上发表。

LeCun 的世界模型来了。即使是今天最先进的人工智能系统,也仍然无法突破一些关键限制。

为了突破这种束缚,Meta 的首席AI 科学家Yann LeCun 提出了一种新的架构。

他的愿景是创造一台可以学习世界运作方式的内部模型的机器,这样它就可以更快地学习、规划复杂的任务,并随时对新的和不熟悉的情况做出反应。

Meta今天推出的图像联合嵌入预测架构I-JEPA模型,是史上第一个基于LeCun世界模型视觉关键部分的AI模型。

I-JEPA 通过创建外部世界的内部模型来学习。在完成图像的过程中,它比较图像的抽象表示,而不是比较像素本身。

I-JEPA 在多项计算机视觉任务中表现出强大的性能,并且比其他广泛使用的CV 模型具有更高的计算效率。

ImageNet Linear Evaluation:I-JEPA 方法在预训练期间不使用任何视觉数据增强来学习语义图像表示,使用比其他方法更少的计算I-JEPA 学习的表示可以用于许多不同的应用程序,而无需制作很多微调。

例如,研究人员在72 小时内使用16 个A100 GPU 训练了一个具有632M 参数的视觉Transformer 模型。

它在ImageNet 上的低镜头分类任务上实现了SOTA,每类低至12 个标记示例。

其他方法通常需要2 到10 倍的GPU 小时数,并且在使用相同数量的数据进行训练时具有更高的错误率。

通过自我监督学习获得常识一般而言,人类可以仅通过被动观察来了解有关世界的大量背景知识。

推测起来,这种常识性信息似乎是实现智能行为的关键,例如获取新概念、基础和计划的有效样本。

基于这一事实,将概念学习建模为学习线性读取元在I-JEPA(以及更普遍的联合嵌入预测架构JEPA 模型)上工作。

研究人员尝试设计一种学习算法,捕捉关于世界的常识性背景知识,然后将其编码为算法可以访问的数字表示形式。

为了达到足够的效率,系统必须以自我监督的方式—— 学习这些表示,即直接从图像或声音等未标记数据中学习,而不是从手动组装的标记数据集中学习。

在更高层次上,JEPA 旨在根据同一输入(图像或文本)的其他部分的表示来预测输入部分的表示。

因为它不涉及将图像的多个视图/增强表示折叠成一个点,所以JEPA 很有希望避免在广泛使用的方法(即基于不变性的预训练)中出现的偏差和问题。

联合嵌入方法可以避免表示崩溃。同时,通过在高度抽象的层次上预测表示,而不是直接预测像素值,JEPA 有望能够直接学习有用的表示,同时避免生成方法的局限性。也正是因为这个原因,最近才出现了这么多令人兴奋的大语言模型。

相比之下,一般生成模型通过删除或扭曲部分输入模型来学习。

例如,擦除照片的一部分,或隐藏文本段落中的某些单词,然后尝试预测损坏或丢失的像素或单词。

但这种方法的一个显着缺点是,虽然世界本身是不可预测的,但模型试图填补每一条缺失的信息。

因此,这种方法可能会犯人类永远不会犯的错误,因为它们过于关注不相关的细节,而不是捕捉更高层次的、可预测的概念。

一个众所周知的例子是生成模型很难生成正确的手。

在自监督学习的一般架构中,系统学习捕捉不同输入之间的关系。

它的目标是将高能量分配给不兼容的输入,将低能量分配给兼容的输入。

self-supervised learning的常用架构这三种架构的区别是——

(a) 联合嵌入(不变)架构学习为兼容输入x、y 输出相似嵌入,为不兼容输入输出不同嵌入。

(b) 生成架构学习直接从兼容信号x 重建信号y,使用附加变量z(可以是

能是潜变量)为条件的解码器网络,以促进重建。

(c) 联合嵌入预测架构学习从兼容信号 x 中预测信号 y 的嵌入,使用以附加变量 z(可能是潜变量)为条件的预测网络,来促进预测。

联合嵌入预测架构

I-JEPA 背后的原理是通过一种更类似于人类理解的抽象表征来预测缺失的信息。

为了引导 I-JEPA 产生语义表征,其中一个核心设计便是多块掩码策略。

具体而言,团队证明了预测包含语义信息的大块的重要性。这些大块具有足够大的规模,可以涵盖重要的语义特征。

这种策略的优势在于,它能够减少不必要的细节,并提供更高层次的语义理解。

通过关注大块的语义信息,模型可以更好地抓住图像或文本中的重要概念,从而实现更强大的预测能力。

基于图像的联合嵌入预测架构(I-JEPA)使用单个上下文块来预测来自同一图像的表征

其中,上下文编码器是一个视觉 Transformer(ViT),它只处理可见的上下文 patch。

预测器是一个窄的 ViT,它接收上下文编码器的输出,并根据目标的位置 token,来预测目标块的表征。

目标表征对应于目标编码器的输出,其权重在每次迭代时,通过对上下文编码器权重的指数移动平均进行更新。

在 I-JEPA 中,预测器可以被视为一个原始(且受限)的世界模型,它能够利用已知的上下文信息来推断未知区域的内容。

这种能力使得模型能够对静态图像进行推理,从而建立一种对图像中的空间不确定性的理解。

与仅关注像素级细节的方法不同,I-JEPA 能够预测未见区域的高层次语义信息,从而更好地捕捉图像的语义内容。

预测器学习建模世界语义的过程

对于每个图像,蓝色框之外的部分被编码并作为上下文提供给预测器。而预测器则输出了代表蓝色框内预期内容的表征。

为了理解模型捕捉的内容,团队训练了一个随机解码器,将 I-JEPA 预测的表征映射回像素空间,从而展示了在蓝色框内进行预测时模型的输出。

显然,预测器能够识别出应该填充部分的语义信息(狗头顶部、鸟的腿、狼的腿、建筑物的另一侧)。

给定一幅图像,随机采样 4 个目标块,随机采样一个范围尺度的上下文块,并删除任何重叠的目标块。这种策略下,目标块相对语义化,上下文块信息量大,但很稀疏,因而处理效率高

简而言之,I-JEPA 能够学习对象部分的高级表征,而且也不会丢弃它们在图像中的局部位置信息。

更高的效率,更强的性能

在预训练上,I-JEPA 的计算更加高效。

首先,它不需要应用更加计算密集的数据增强来生成多个视图,因此不会带来额外的开销。

其次,其中的目标编码器只需对图像的一个视图进行处理,而上下文编码器也只需对上下文块进行处理。

实验证明,I-JEPA 能够在不使用人工视图增强的情况下,学习到强大的现成语义表征。

此外,在 ImageNet-1K 线性探测和半监督评估中,I-JEPA 的表现也优于像素重建和 token 重建方法。

在预训练过程中,以 GPU 小时数为函数的基准,在 ImageNet-1k 上进行线性评估的性能

在语义任务上,I-JEPA 与之前依赖于人工数据进行增强的预训练方法相比,表现更加出色。

与这些方法相比,I-JEPA 在低级视觉任务(如物体计数和深度预测)上实现了更好的性能。

通过使用更简单、更灵活的归纳偏置模型,I-JEPA 可以用在更广泛的任务上。

低样本分类准确率:对 ImageNet-1k 进行半监督评估,使用 1% 的标签(每个类别大约有 12 张带标签的图像)

AI 向人类智能更进了一步

I-JEPA 展示了架构在学习现成图像表征方面的潜力,而且还不需通过人工制作的知识作为额外的辅助。

推进 JEPA 以从更丰富的模态中学习更通用的世界模型,将会是一样特别有意义的工作。

例如,从短的上下文中,对视频进行长程的空间和时间预测,并将这些预测基于音频或文本提示进行条件化。

I-JEPA 预测器表征的可视化:第一列包含原始图像,第二列包含上下文图像,绿色边界框包含来自预测器输出解码的生成模型的样本。预测器正确捕捉了位置的不确定性,以正确的姿态产生了高级对象的部分,丢弃精确的低级细节和背景信息

团队表示,期待着将 JEPA 方法扩展到其他领域,如图像-文本配对数据和视频数据。

未来,JEPA 模型会在视频理解等任务中可能具有令人兴奋的应用。而这也将是应用和扩展自监督方法来学习世界模型的重要一步。

预训练模型单 GPU 训练

在单 GPU 设置中,实现从 main.py 开始。

例如,要使用配置 configs / in1k_vith14_ep300.yaml 在本地计算机上的 GPU 0、1 和 2 上运行 I-JEPA 预训练,请输入以下命令:

pythonmain.py--fnameconfigs/in1k_vith14_ep300.yaml--devicescuda:0cuda:1cuda:2

注意:ViT-H / 14 配置应在 16 个 A100 80G 显卡上运行,有效批大小为 2048,才能复现结果。

多 GPU 训练

在多 GPU 设置中,实现从 main_distributed.py 开始,除了解析配置文件外,还允许指定有关分布式训练的详细信息。

对于分布式训练,需要使用流行的开源 submitit 工具,并提供 SLURM 集群的示例。

例如,要使用 configs / in1k_vith14_ep300.yaml 中指定的预训练实验配置在 16 个 A100 80G 显卡上进行预训练,请输入以下命令:

pythonmain_distributed.py--fnameconfigs/in1k_vith14_ep300.yaml--folder$path_to_save_submitit_logs--partition$slurm_partition--nodes2--tasks-per-node8--time1000网友评论

对于 LeCun 领衔的这项新工作,网友们纷纷表示赞赏。

真是开创性的工作,吹爆了。自回归模型的继任者就在这里!

我相信,联合嵌入架构是人工智能的未来,而不是生成式的。但我就是很好奇,为什么我们不进一步研究多模态(如 ImageBind,而不仅仅是文本-图像对),并且用像编码器这样的感知器来代替 VIT 编码器?

很简洁的工作。在我的理解中,它类似于掩蔽自动编码器,但在潜在空间中定义时会丢失功能,而不是输入 / 像素空间。不过,如果要详细看懂,我还需要更多细节。

我的大脑只能看懂论文的 10%,但如果 I-JEPA 真的能创建图 3 中的目标图像,那就太神奇了,最重要的是:它和 AI 生成的 MMORPG 是相关的!

这个项目即将开源,网友也对 Meta 对于开源社区的贡献表示赞赏。

参考资料:

https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/

本文来自微信公众号:新智元 (ID:AI_era)

本文由网络整理发布,不代表东辰网立场,转载联系作者并注明出处:https://www.ktwxcd.com/sszx/253382.html

留言与评论(共有 0 条评论)
   
验证码:

联系我们

在线咨询:点击这里给我发消息

微信号:vx614326601

工作日:9:30-18:30,节假日休息