你的位置：| 萝莉porn > 北条麻妃作品封面图片 > 千涩bt核工厂 o3挑战ARC-AGI，碰见大网格就懵圈？英国工程师：ARC-AGI不适合大模子

千涩bt核工厂 o3挑战ARC-AGI，碰见大网格就懵圈？英国工程师：ARC-AGI不适合大模子

发布日期：2024-12-27 08:56 点击次数：144

千涩bt核工厂 o3挑战ARC-AGI，碰见大网格就懵圈？英国工程师：ARC-AGI不适合大模子

o3 在超难推理任务 ARC-AGI 上的收成千涩bt核工厂，属实给东谈主类带来了不少震憾。

但有东谈主特意计议了它不会作念的题之后，有了更意象的发现——

o3 之是以不会作念这些题，原因可能不是因为太难，而是题遐想范围太大了。

来自英国的 ML 工程师 Mikel Bober-Irizar（不妨叫他米哥），对 ARC 题目进行了紧密不雅察。

成果米哥发现，题目中的网格范围越大，大模子的泄露也就越差。

而且不仅是 o3，o1 和 o1 mini，还有邻近的 Claude，王人出现了这么的逍遥。

米哥的这项计议，引起了东谈主们对大模子责任机制的很多考虑。

寰宇首位全职领导词工程师Riley Goodside看到后，也以为这是一项很好的计议。

大模子被困在了网格范围上

如故先苟简回顾一下 ARC 挑战，题目带有色块的网格阵列（以文本样貌表述，用数字代表心思），大模子需要不雅察每谈题目中 3 个输入 - 输出示例，然后说明规则填充新的空缺网格。

米哥发现，在 ARC 挑战中，范围越大，也即是网格的数目越多，大模子的泄露也就越差。

o3 也逃不外这么的魔咒，但比拟于其他模子，o3 泄露的解析下落出现得更晚，大要在网格数目达到 1024 个之后（请记取这个位置，背面还会讲到）。

为了进一步考证这个发现，米哥还用 o1-mini 进行了实践测试。

下图当中，傍边两栏的题目乍一看上去好像没什么区别，但在右边，米哥对网格进行了细粒度的切割，原本的一个格子被切成了 4（2 × 2）个。

成果原本能作念对的题，切成小块之后，o1-mini 还真就不灵了。

千涩bt核工厂

进一局面，米哥还对 ARC 数据围聚的范围散布进行了统计，成果刚好是范围在 1024 个像素的题目数目最多。

还铭记前边 o3 收成下落趋势倏得变大的位置吧，刚好即是在 1024 邻近。

情色电影下载

米哥以为，这即是 o3 在 ARC 挑战上取得优异收成的垂危要素，而其他模子收成欠安，是因为对应的小范围试题占比较少。

是以在米哥看来，ARC 挑战并不成完竣反应大模子真实的推明智商——有不少模子王人被低估，o3 则是被高估了。

ARC 挑战不适合大模子？

那么，为什么题目中网格数目一多，大模子的泄露就不好了呢？

先来看米哥的分析。

米哥援用了纽约大学的一项计议成果（arXiv：2409.01374），这项计议发现东谈主类在挑战这么的问题时并不会出现这种逍遥。

若是在东谈主类和模子之间作念个比较，那么在范围较小时 o3 的泄露不错说完胜东谈主类，但范围较大时优越方就形成了东谈主类。

这评释，大模子在责罚此类问题时，想考风物和东谈主类依然存在永别。

天然，大模子在挑战 ARC 时看到的不是图像，而是用数字代表的矩阵，这是了然于目的，但永别还不啻于此。

东谈主类在濒临 ARC 问题时，即使是用这种数字矩阵来暗示，也能够看出视觉信息，相识其中的位置相关。

在空间中，ARC 是一个二维问题，需要跨行和列进行推理，但大模子在处理 token 时是以一维措施进行的。

这意味着，大模子进行跨列推理时，需要组合较长的迤逦文信息。

而跟着网格变得更大，模子需要对更长的迤逦文进行推理，而况必须对相距较远的数字进行组合和推理。

米哥之前一经和剑桥大学高档计议员 Soumya Banerjee 此前进行的一项计议（arXiv：2402.03507）标明，通过对矩阵进行 90 度旋转，让模子离别基于行和列进行推理，比径直作念题收成普及了一倍。

是以米哥以为，是不雅察问题的维度影响了大模子的收成，ARC 这种任务并不适合大模子。

他还暗示在 NeurIPS 上听到了一个很好的类比——

将二维的 ARC 任务交给大模子，就像盼望东谈主类在四维空间中进行推理。

同期网友们还指出，天然实践上触及了维度互异，但视觉依然是一个垂危要素。

设想一下，若是东谈主莫得视觉智商，单纯依靠听或其他风物赢得对于其中网格的信息，也很难径直构建出二维的矩阵。

不外说到这，即便模子领有"视觉"智商，亦然将视觉信息调节为 Token，和东谈主类的视觉也或然疏导。

网友以为，信得过的视觉需要能够处理并行输入的信息，而不是逐一 Token 的串行输入，二进制 IO 数据流约略是一种责罚决策。

One More Thing

说明 ARC 挑战官方的说法，ARC-AGI 的下一代 ARC-AGI-2 行将推出。

早期测试标明，其将对 o3 组成要紧挑战——

即使在高揣测量模式下，o3 的得分也可能会镌汰到 30% 以下（而贤慧东谈主仍然能够得分跳跃 95%）。

— 完 —

点这里� � 柔和我，铭记标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日相遇 ~

上一篇：迷奸丝袜五星佳作《嫡女仙途》，追完又信服爱情了
下一篇：葬送的芙莉莲动漫中国银行业协会原布告长黄润中采选审查探听