下一个AI比赛场，为什么是Harness？

发布时间：2026-05-27 文章来源：本站浏览次数：10

"Agents aren't hard; the Harness is hard."

2026 年 2 月，当 OpenAI 工程师 Ryan Lopopolo 用这句话概括他刚完结的项目时，大多数人还不了解他的慨叹。他带着一个不到 10 人的小团队，用 5 个月时间，让 Codex 写出了超越 100 万行代码，全程没有手敲一行。这套能让模型可靠地工作的体系，被他称之为 "Harness Engineering"。

据揭露信息，Codex的周活泼用户在3月初还是160万左右，但到了5月，现已超越了400万。

除了模型的升级，Codex的Harness才能也为它赢来不少用户。比方，有开发者测验发现，在一个相同使命上，Claude Code消耗的token约是 Codex的3到4倍。距离不全在模型自身，也和 Harness 规划有关：Codex 倾向于把使命拆开并行跑，每个子使命上下文独立，互不污染。

现在 AI 圈现已广泛认可 "Agent = Model + Harness" 这一条公式。假如 Agent 是一辆车，大模型便是提供马力的发动机。没有发动机，全部无从谈起。但一台裸发动机放在地上，你也无法开它上路。Harness，便是把"发动机"变成"整车"的那套体系工程。

就在本月，DeepSeek 发布了两个招聘岗位：Harness 产品经理和 Harness 研制工程师。DeepSeek 资深研究员陈德里在交际媒体上表示，这是为了组建一个 Harness 团队，且方向是"对标 Claude Code，做 DeepSeek Code Harness"。这一家以模型层打破著称的公司，也把下一步的筹码押在了 Harness 上。

曩昔几年，模型才能是稀缺资源。但随着模型才能根底设施化，抢先变得难以保持强壮模型，保质期越来越短了，模型之外的那一层 Harness 益发重要。

模型才能依然是根本，但Harness现已变成AI竞赛的关键比赛场。

一、Harness 洗牌职业三层结构

Harness 开端反向优化模型，仅仅洗牌当前整个 AI 职业结构的早期信号。

曩昔几年，AI 产业被默许分红三层结构：根底设施层、模型层和运用层。三层各司其职，价值分配相对清晰。但现在Harness开端影响这个“利益蛋糕”的分配。

模型公司首先感受到是“实现权”被拿走了一部分。

曩昔模型公司既练习模型，又决议模型怎么被用。卖 API、卖 Playground，模型才能的实现彻底在自己手里。模型强，就卖得贵，逻辑简略。

Harness 出现后，这个逻辑松动了。在 DeepSeek官方决议下场做 Harness 之前，开发者社区里的一个 "DeepSeek版Claude Code"（名为"DeepSeek-TUI"）备受欢迎，现在Stars已超越3万。这是由于同一个 DeepSeek 版别，跑在一个精调的 code Harness 里，能发挥更好的水准，而跑在一个粗糙的“壳”里，才能会大打折扣。

模型自身没有改变，但Harness会影响模型才能实现的区间。模型公司辛苦训出来的才能，假如拱手让给别人的Harness 来接受，终究定价权或许会在别人手上。相当于自己成了供货商，少赚一层，货好货差还由渠道说了算。

运用层的改变产生得更隐蔽和缓慢一些。曩昔不少运用公司的护城河是懂事务。这种"懂"藏在产品经理的判别里、在多年打磨的交互细节里、在继续迭代的功能逻辑里。但现在这些东西开端往Harness搬。例如，SaaS 巨头 Salesforce 把出售头绪追寻的规范动作固化进去，Claude Code 把代码评定的规范流程嵌进去。曩昔靠人了解和沉积的东西，现在到了 Harness 这一层。

本年 5 月，老牌客服 SaaS 公司 Intercom 乃至直接改名为 Fin，用自家 AI Agent 产品的名字替换了运营 15 年的品牌，开端环绕 Harness 重构。那些还没开端重视Harness的运用公司，几年后回头看，或许会发现自己的事务护城河现已被悄然掏空。事务了解一旦被 Harness 固化为可执行的 Agent 动作，这套了解的所有权，就跟着 Harness 走了，不再跟着人走。

再往上走，根底设施层也无法置身事外，由于算力商场的需求会被反向界说。

曩昔英伟达等公司的产品规划，很大程度上由大批量、稳定负载的模型练习来驱动。但随着Harness的遍及，Agent推理正成为算力商场的新主导力量。Agent 具有长链路、多次调用、带东西、带回忆的特征，其推理负载有长周期、不行猜测等动态改变，需求不同的调度方法、内存架构和网络拓扑。英伟达在2026年发布的Vera Rubin渠道，便是专为智能体和大规模推理年代而构建。Harness 开端反过来影响芯片层的下一代产品形状。

这些改变叠在一同，让AI产业链的每一层利益分配，都要开端从头商洽。

二、Harness 天然长在场景里

Harness 自身内部，也在产生分解。这种分解的根源，藏在 Harness 的一个根本性特色里。

Ryan Lopopolo团队开端以为，只要把模型接上Harness就行，但后面发现，Harness不是一个即插可用的插件。Harness 不是一次规划好就放在那里的，它必须在实在场景的失利里磨出来。没有这种实在场景去纠偏，Harness就会僵化。

这便是为什么Harness天然长在场景里。而不同公司的事务场景千差万别，Harness也就会分解。

早被验证、也快能让 Harness 跑通的是代码场景。Harness 在代码场景里跑出来的每一条轨迹，都自带反应信号，模型能够从中学习。这是为什么 Anthropic 和 OpenAI 不约而同把 Harness 的第一战放在代码场景上。

但代码之外的国际没有编译器，要复杂得多。在客服答疑、售后服务、风控判别等非代码场景里，没有一个自动化的客观规范能瞬间给出对错。离开了天然验证器，反应信号要么靠人工去工标示和复盘，但本钱高、迭代慢；要么靠实在事务成果反应，这就需求离事务满足近、跑得满足久。Harness 做得好的玩家，一定是离实在事务反应近的。

长远来看，模型必定还会变得更强。现在 Harness 面对的失利重试、上下文切断等需求专门工程来处理的问题，未来或许模型自己就能处理。但 Harness 长在实在事务场景里、靠实在失利磨出来的部分，是模型再强也代替不了的。模型变强会消解 Harness 的工程层，但消解不掉 Harness 的场景层。

有实在事务反应的玩家，现已开端在 Harness 上显示出优势。

比方，SaaS 巨头 Salesforce 在 CRM 场景里有几十年沉积的客户行为数据、出售漏斗反应、服务工单记载。新财年的数据显示，公司的Agentforce现已按"Agent 对话"收费，ARR 达 8 亿美元，全年增速 169%，累计超 2.9 万笔交易，已走通商业实现。

现在国内日活第一的 Agent 腾讯 WorkBuddy，也是很早就押注 Harness 的玩家。从团队决议做 claw 形式到全量上线，只用了一个星期。能跑得这么快，是由于WorkBuddy的Harness早就在腾讯内部搭建好。在面向商场之前，WorkBuddy就被内部2000多人运用过。员工把会议纪要、跨部门协作、邮件草拟、文档生成这些日常工作交给它，每一次运用和反应都被沉积回Harness里，将Harness打磨得更好。

可是，这不意味着各家公司在各自界说和制造彻底孤立、只精干一件事的 Agent 产品。而是在未来的AI竞赛中，当模型要进入不同职业的事务深水区时，必须放入不同的 Harness 里去锻炼。

这些锻炼的分解不仅是Agent路线的挑选差异，更是企业各自护城河的重塑。代码、协同工作、电商交易等等，不同的场景长出彻底不同的 Harness。由于非代码场景的反应信号极难跨职业复制，在一个场景里磨出来的 Harness，无法直接搬到另一个场景里发力。那么，具有共同事务闭环的玩家，会在自己的领域内树立起壁垒，外来者很难经过单纯堆叠算力或模型规模来打破这种抢先。

三、规范化与智能体生态之争

当 Agent 在不同的 Harness 里锻炼，长出了不同的规矩和行事风格，它们终究需求"彼此说话"。

假如每家都用私有协议、私有调用方法，整个 Agent 生态就会陷入 PC 年代软件之间不能互通、互联网年代浏览器各自实现 HTML 的紊乱。为此，接下来 Agent 竞赛一定会从场景层的工程上升到协议和规范层面，这是 Agent 大规模互通的根底对抗。

Agent 的规范化竞赛现已开端。Anthropic在2024年底推出MCP（Model Context Protocol），把模型如何接入东西、如何获取上下文这件事抽象成职业协议；Google 在2025年4月推出A2A（Agent2Agent）协议，让多个 Agent 之间能跨厂商协作。

究竟，当Agent开端大规模互通，先入者构成的协议网络会成为后来者的进入门槛。谁先把协议铺开、把生态接进来、把开发者留住，谁就在这一层拿到了类似 Android、iOS 的渠道位。

在国内，腾讯、阿里、字节都在跟进，防止在事实规范之外掉队。腾讯云智能体开发渠道全面支撑MCP并上线MCP插件广场；阿里百炼渠道已接入MCP；字节旗下的Trae和Coze也在全面拥抱和兼容MCP。

协议的规范化远不止处理互通这件事自身。协议决议的还有能否让用户安全、信赖地运用Agent，终究能否实现大规模商业化落地。

当Agent能代你下单、付款、签合一起，过程中的风险怎么把控？本年5月，中国信通院联合腾讯、华为、中兴、三大运营商和港中深共同发布的 ATH 协议，开端回应这些问题。这个协议的核心思路是经过用户、Agent 与服务的三方握手来确定权限鸿沟，权限取交集，任何一方缺席都无法经过。

与协议之争一起产生的，还有 Agent 协作根底设施的建造。

当十个 Agent 要协作，光有规范协议还不行。多个 Agent 之间的调度、共享内存、权限鸿沟、上下文路由、安全沙箱等问题是协议层面不能彻底处理的问题，需求一套底层根底设施接受。

这一层根底设施终究会长成什么样，现在没有一致。一种或许是被现有终端进一步集成，它们先拿到屏幕、体系算力和硬件权限，再去调用 Agent；另一种或许是演化出独立的智能体生态，类似于PC年代的 Windows 或移动年代的 Android。

还有一种途径是在已有的超级生态里长出来，这也是现在外界对微信 Agent 大的想象空间。腾讯高管在多个揭露场合提过微信 Agent 的方向。尽管现在还没有正式产品形状，但假如把 14 亿微信用户、450 万小程序，以及掩盖从支付到政务的事务场景，自身便是一张现成的Agent协作网络。Agent不需求从头“搭场子”，它接入的是现已跑通的实在事务，顺着这张网往前走就行。

协议界说Agent之间如何互通，根底设施担任让Agent能稳定运转。能够看到，现在跑在前面的AI公司都在一起考虑这两件事，为抢占Agent年代的竞赛优势做准备。

结语

曩昔看一家 AI 公司的竞赛力，大家习惯性看它的模型有多强、榜单上的分数有多高、烧的钱有多少。但这些问题，只能告知你有没有”发动机”，以及“发动机做得怎样”。

可是，现在职业现已意识到这一套评价方法不行全面和实用。整车要跑上路，还需求一套安全可用的“整车体系”。当OpenAI和DeepSeek等模型层也在补齐Agent所需求的Harness才能时，其实现已提醒了AI竞赛新的评价方法：Harness能不能反向优化自家模型、有没有实在事务场景做反应、能不能在Agent规范化之争中卡位、有没有树立根底底座承载多Agent的协作等等。

模型依然是根本盘，但随着Harness的影响在扩展，每一家AI公司接下来要回答的都不再仅仅“我的模型有多强”，还要想清楚自己在Harness搅动的新AI格局里，要站在哪里？

AI 年代一日千里，Harness 也许仅仅一个开端。再过几年，它或许有新的名字，详细形状也或许会演化。但模型与场景之间，总要有一个衔接模型、嵌入事务、沉积反应的中间层。

这一层沉积的除了工程才能，还有事务了解、反应数据，以及一家公司和实在用户之间日复一日的彼此校准。现在来看，这件事情没有捷径，只能在满足长的时间里沉积，在满足大的实在事务中锻炼。

下一条：拼多多新链接怎样快速入池...