欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

Ilya刚预言完,国际首个原生多模态架构NEO就来了

发布时间:2025-12-15 文章来源:本站  浏览次数:22

当Ilya Sutskever近揭露声称“纯靠Scaling Law的年代已经结束”,并断言“大模型的未来不在于单纯的规划更大,而是要架构变得更聪明”时,整个AI界都意识到了一场范式搬运正在发生。

由于曩昔几年,行业好像沉迷于用更多数据、更大参数、更强算力堆出更强的模型,但这条路正迫临收益递减的临界点。

Ilya和LeCun等顶尖AI大佬不约而同地指出:真实的打破,有必要来自架构层面的根本性立异,而非对现有Transformer流水线的修修补补。

就在如此要害节点,一个来自我国研讨团队的新物种横空出世:

全球首个可大规划落地的开源原生多模态架构(Native VLM),名曰NEO

要知道,此前干流的多模态大模型,例如咱们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑实质上其实玩的便是拼接

什么意思呢?

便是将一个预练习好的视觉编码器(比方 ViT)经过一个小小的投影层,嫁接到一个强壮的大言语模型上。

这种模块化的方式虽说是完成了多模态,但视觉和言语始终是两条平行线,只是在数据层面被粗暴地拉到了一起。

而这项来自商汤科技与南洋理工大学等高校的联合研讨,要做的便是从根上颠覆这一切。

在NEO这儿,大模型不只能看、会说,而且天生就懂视觉和言语是一体两面的道理。

更惊人的一组数据是,凭借这种原生多模态架构,NEO仅用十分之一的练习数据,就在多项要害评测中追平乃至逾越了那些依赖海量数据和杂乱模块堆砌的旗舰级对手!

那么NEO到底是怎样怎么做到的,咱们继续往下看。

为什么非得是原生架构?

在深入了解原理之前,咱们还需求了解多模态当时的现状。

正如咱们方才提到的,当时干流的模块化架构,实则存在三大难以跨越的技能距离。

首先是功率距离

模块化模型的练习流程极端杂乱,一般分为三步:先分别预练习视觉编码器和言语模型,再经过一个对齐阶段让二者学会沟通,后可能还需求指令微调。

这个过程不只耗时耗力,本钱高昂,而且每个阶段都可能引入新的误差和不一致性;视觉和言语的常识被割裂在不同的“房间”里,需求不断“传纸条”才干勉强协作。

其次是才能距离

视觉编码器在规划之初就带有激烈的归纳偏置。比方,它一般要求输入图画有必要是固定的分辨率(如224x224),或许有必要被强行展平成一维的token序列。

这种处理方式,关于了解一幅画的全体构图或许足够,但在面临需求捕捉细微纹理、杂乱空间联系或恣意长宽比的场景(比方一张长图、一张工程图纸)时,就显得力不从心。

由于模型看到的,只是一个被过度简化和结构化的骨架。

后是交融距离

那个衔接视觉和言语的映射,简直都是停留在简略的表层,无法触及深层次的语义对齐。这就导致了模型在处理需求细粒度视觉了解的任务时常常捉襟见肘。

例如,让它描绘一张杂乱图表,它可能会混淆图例和数据;让它了解一个带有空间指示的指令,比方“把左面第二个红苹果放到右边篮子里”,它可能会搞错左右或数量。

究其根本,是由于在模型内部,视觉信息和言语信息从未被放在同一个语义空间里进行真实的、深度交融的推理。

也正因如此,NEO背面研讨团队从第一性原理动身,直接打造一个视觉与言语从诞生之初就血脉相连的一致模型——

这个模型不再有视觉模块和言语模块的区分,只要一个一致的、专为多模态而生的大脑。

回忆AI发展史,从RNN到Transformer,每一次真实的腾跃都源于架构层面的根本性立异。

而曩昔几年,行业陷入了“唯规划论”的路径依赖,直到今日,以Ilya为代表的一批顶尖研讨者才集体发出警示:Transformer架构的固有局限已日益凸显,仅靠堆叠算力和数据,无法通往真实的通用智能。

NEO的诞生,恰逢其时。它用一个简练而一致的原生架构,有力地证明晰:下一代AI的竞争力,要害在于架构有多聪明。

NEO背面的三大原生技能

NEO 的核心立异,体现在三个底层技能维度上,它们一起构建了模型的原生才能。

第一,原生图块嵌入 (Native Patch Embedding)。

传统模型常预先采用离散的tokenizer或许衔接vision encoder压缩图画信息或语义token。

NEO则是直接摒弃了这一步,它规划了一个轻量级的图块嵌入层,经过两层卷积神经网络,直接从像素动身,自底向上地构建一个接连的、高保真的视觉表征。

这就像让AI学会了像人类一样,用眼睛直接感受光影和细节,而不是先看一张被马赛克化的抽象图。

这种规划让模型能更精细地捕捉图画中的纹理、边际和部分特征,从根本上打破了干流模型的图画建模瓶颈。

第二,原生三维旋转方位编码 (Native-RoPE)。

方位信息关于了解任何序列都至关重要。文本是一维的,而图画是二维的,视频更是三维的(时空)。传统模型要么给所有模态用同一个一维方位编码,要么简略地拼接,这显然无法满意不同模态的天然结构。

NEO的Native-RoPE立异性地为时间(T)、高度(H)、宽度(W)三个维度分配了不同的频率:视觉维度(H, W)使用高频,以精准描写部分细节和空间结构;文本维度(T)兼顾高频和低频,同时处理好部分性和长距离依赖。

更奇妙的是,关于纯文本输入,H和W的索引会被置零,完全不影响原有言语模型的功能。

这相当于给AI装上了一个智能的、可自适应的时空坐标系,不只能精准定位图画中的每一个像素,也为无缝扩展到视频了解和3D交互等杂乱场景铺平了道路。

第三,原生多头留意力 (Native Multi-Head Attention)。

留意力机制是大模型的考虑方式,在传统模块化模型里,言语模型的留意力是因果的(只能看到前面的词),而视觉编码器的留意力是双向的(能看到所有像素)。

NEO采取的方法,则是在一个一致的留意力框架下,让这两种形式并存。

当处理文本token时,它遵循规范的自回归因果留意力;而当处理视觉token时,它则采用全双向留意力,让所有图画块之间能够自由地交互和关联。

这种“左右脑协同工作”的形式,极大地提升了模型对图画内部空间结构的了解才能,从而能更好地支撑杂乱的图文交织推理,比方了解“猫在盒子上方”和“猫在盒子里”的细微差别。

除了这三大核心,NEO还配套了一套名为Pre-Buffer & Post-LLM的双阶段交融练习战略。

在预练习初期,模型会被暂时划分为两部分:一个担任视觉言语深度交融的Pre-Buffer和一个继承了强壮言语才能的Post-LLM。

前者在后者的引导下,从零开始高效地学习视觉常识,建立初步的像素-词语对齐;而且跟着练习的深入,这个划分会逐渐消失,整个模型融为一个端到端的、不可分割的全体。

这种战略便奇妙地处理了原生架构练习中怎么在不危害言语才能的前提下学习视觉的难题。

十分之一的数据,追平旗舰

纸上谈兵终觉浅,实测数据见分晓。接下来咱们就来看下NEO在实测中的体现。

纵观成果,直观的体现便是数据功率——

NEO仅使用了3.9亿个图画文本对进行练习,这个数量级仅仅是同类尖端模型所需数据的十分之一!

它无需依赖巨大的视觉编码器或海量的对齐数据,仅凭其简练而强壮的原生架构,就在多项视觉了解任务上追平了 Qwen2-VL、InternVL3等尖端模块化旗舰模型。

在权威的评测榜单上,NEO的体现也是较为亮眼。

在MMMU(多学科归纳了解)、MMBench(归纳多模态才能)、MMStar(空间与科学推理)、SEED-I(视觉感知)以及POPE(衡量模型幻觉程度)等多个要害基准测验中,NEO均取得了高分,展现出优于其他原生VLM的归纳功能,真实做到了精度无损。

尤其值得留意的是,当时NEO在2B到8B的中小参数规划区间内,展现出了较高的推理性价比。

关于动辄数十B乃至上百B的大模型来说,这些中小模型好像只是玩具。但正是这些模型,才是未来在手机、机器人、智能轿车等边际设备上落地的要害。

NEO不只在这些规划上完成了精度与功率的双重跃迁,更大幅降低了推理本钱。

这意味着,强壮的多模态视觉感知才能,将不再是云端大模型的专属,而是能够真实遍及到每一个终端设备上。

怎么评价NEO?

后,咱们还需求讨论一个问题:NEO有什么用?

从咱们上述的内容不难看出,NEO真实的价值,不只在于功能指标的打破,更在于它为多模态AI的演进指明晰一条新路径。

它原生一体化的架构规划,从底层打通了视觉与言语的语义距离,天然支持恣意分辨率图画、长图文交织推理,并为视频了解、3D空间感知乃至具身智能等更高阶的多模态交互场景预留了明晰的扩展接口。

这种为交融而生的规划哲学,能够让它成为构建下一代通用人工智能体系的抱负底座。

更要害的是,商汤已开源基于NEO架构的2B与9B两种标准模型,释放出激烈的共建信号。

这一行动有望推动整个开源社区从当时干流的模块拼接范式,向更高效、更一致的原生架构搬迁,加快形成新一代多模态技能的事实规范。

与此同时,NEO在中小参数规划下展现出的性价比,正在打破大模型垄断高功能的固有认知。

它大幅降低了多模态模型的练习与部署门槛,使得强壮的视觉了解才能不再局限于云端,而是能够真实下沉到机器人、智能轿车、AR/VR 眼镜、工业边际设备等对本钱、功耗和推迟高度敏感的终端场景。

从这个角度看,NEO不只是一个技能模型,更是通向下一代普惠化、终端化、具身化AI基础设施的要害雏形。

更重要的是,NEO的出现,为当时迷茫的AI界提供了一个明晰而有力的答案。

在Ilya等人一起指出行业亟需新范式的当下,NEO以其完全的原生规划理念,成为了“架构立异重于规划堆砌”这一新趋势的首个成功典范。

它不只从头定义了多模态模型的构建方式,更向国际宣告:AI的下一站,是回归到对智能实质的探索,经过根本性的架构立异,去构建能真实了解并融通多维信息的通用大脑。

这一步,是我国团队对全球AI演进方向的一次要害性贡献。或如预言,这正是通往下一代AI的必经之路。

下一条:2025年粤港澳大湾区人...