咨询服务热线:400-099-8848
下一个AI比赛场,为什么是Harness? |
| 发布时间:2026-05-27 文章来源:本站 浏览次数:10 |
"Agents aren't hard; the Harness is hard." 2026 年 2 月,当 OpenAI 工程师 Ryan Lopopolo 用这句话概括他刚完结的项目时,大多数人还不了解他的慨叹。他带着一个不到 10 人的小团队,用 5 个月时间,让 Codex 写出了超越 100 万行代码,全程没有手敲一行。这套能让模型可靠地工作的体系,被他称之为 "Harness Engineering"。 据揭露信息,Codex的周活泼用户在3月初还是160万左右,但到了5月,现已超越了400万。 除了模型的升级,Codex的Harness才能也为它赢来不少用户。比方,有开发者测验发现,在一个相同使命上,Claude Code消耗的token约是 Codex的3到4倍。距离不全在模型自身,也和 Harness 规划有关:Codex 倾向于把使命拆开并行跑,每个子使命上下文独立,互不污染。 现在 AI 圈现已广泛认可 "Agent = Model + Harness" 这一条公式。假如 Agent 是一辆车,大模型便是提供马力的发动机。没有发动机,全部无从谈起。但一台裸发动机放在地上,你也无法开它上路。Harness,便是把"发动机"变成"整车"的那套体系工程。 就在本月,DeepSeek 发布了两个招聘岗位:Harness 产品经理和 Harness 研制工程师。DeepSeek 资深研究员陈德里在交际媒体上表示,这是为了组建一个 Harness 团队,且方向是"对标 Claude Code,做 DeepSeek Code Harness"。这一家以模型层打破著称的公司,也把下一步的筹码押在了 Harness 上。 曩昔几年,模型才能是稀缺资源。但随着模型才能根底设施化,抢先变得难以保持强壮模型,保质期越来越短了,模型之外的那一层 Harness 益发重要。 模型才能依然是根本,但Harness现已变成AI竞赛的关键比赛场。 一、Harness 洗牌职业三层结构 Harness 开端反向优化模型,仅仅洗牌当前整个 AI 职业结构的早期信号。 曩昔几年,AI 产业被默许分红三层结构:根底设施层、模型层和运用层。三层各司其职,价值分配相对清晰。但现在Harness开端影响这个“利益蛋糕”的分配。 模型公司首先感受到是“实现权”被拿走了一部分。 曩昔模型公司既练习模型,又决议模型怎么被用。卖 API、卖 Playground,模型才能的实现彻底在自己手里。模型强,就卖得贵,逻辑简略。 Harness 出现后,这个逻辑松动了。在 DeepSeek官方决议下场做 Harness 之前,开发者社区里的一个 "DeepSeek版Claude Code"(名为"DeepSeek-TUI")备受欢迎,现在Stars已超越3万。这是由于同一个 DeepSeek 版别,跑在一个精调的 code Harness 里,能发挥更好的水准,而跑在一个粗糙的“壳”里,才能会大打折扣。 模型自身没有改变,但Harness会影响模型才能实现的区间。模型公司辛苦训出来的才能,假如拱手让给别人的Harness 来接受,终究定价权或许会在别人手上。相当于自己成了供货商,少赚一层,货好货差还由渠道说了算。 运用层的改变产生得更隐蔽和缓慢一些。曩昔不少运用公司的护城河是懂事务。这种"懂"藏在产品经理的判别里、在多年打磨的交互细节里、在继续迭代的功能逻辑里。但现在这些东西开端往Harness搬。例如,SaaS 巨头 Salesforce 把出售头绪追寻的规范动作固化进去,Claude Code 把代码评定的规范流程嵌进去。曩昔靠人了解和沉积的东西,现在到了 Harness 这一层。 本年 5 月,老牌客服 SaaS 公司 Intercom 乃至直接改名为 Fin,用自家 AI Agent 产品的名字替换了运营 15 年的品牌,开端环绕 Harness 重构。那些还没开端重视Harness的运用公司,几年后回头看,或许会发现自己的事务护城河现已被悄然掏空。事务了解一旦被 Harness 固化为可执行的 Agent 动作,这套了解的所有权,就跟着 Harness 走了,不再跟着人走。 再往上走,根底设施层也无法置身事外,由于算力商场的需求会被反向界说。 曩昔英伟达等公司的产品规划,很大程度上由大批量、稳定负载的模型练习来驱动。但随着Harness的遍及,Agent推理正成为算力商场的新主导力量。Agent 具有长链路、多次调用、带东西、带回忆的特征,其推理负载有长周期、不行猜测等动态改变,需求不同的调度方法、内存架构和网络拓扑。英伟达在2026年发布的Vera Rubin渠道,便是专为智能体和大规模推理年代而构建。Harness 开端反过来影响芯片层的下一代产品形状。 这些改变叠在一同,让AI产业链的每一层利益分配,都要开端从头商洽。 二、Harness 天然长在场景里 Harness 自身内部,也在产生分解。这种分解的根源,藏在 Harness 的一个根本性特色里。 Ryan Lopopolo团队开端以为,只要把模型接上Harness就行,但后面发现,Harness不是一个即插可用的插件。Harness 不是一次规划好就放在那里的,它必须在实在场景的失利里磨出来。没有这种实在场景去纠偏,Harness就会僵化。 这便是为什么Harness天然长在场景里。而不同公司的事务场景千差万别,Harness也就会分解。 早被验证、也快能让 Harness 跑通的是代码场景。Harness 在代码场景里跑出来的每一条轨迹,都自带反应信号,模型能够从中学习。这是为什么 Anthropic 和 OpenAI 不约而同把 Harness 的第一战放在代码场景上。 但代码之外的国际没有编译器,要复杂得多。在客服答疑、售后服务、风控判别等非代码场景里,没有一个自动化的客观规范能瞬间给出对错。离开了天然验证器,反应信号要么靠人工去工标示和复盘,但本钱高、迭代慢;要么靠实在事务成果反应,这就需求离事务满足近、跑得满足久。Harness 做得好的玩家,一定是离实在事务反应近的。 长远来看,模型必定还会变得更强。现在 Harness 面对的失利重试、上下文切断等需求专门工程来处理的问题,未来或许模型自己就能处理。但 Harness 长在实在事务场景里、靠实在失利磨出来的部分,是模型再强也代替不了的。模型变强会消解 Harness 的工程层,但消解不掉 Harness 的场景层。 有实在事务反应的玩家,现已开端在 Harness 上显示出优势。 比方,SaaS 巨头 Salesforce 在 CRM 场景里有几十年沉积的客户行为数据、出售漏斗反应、服务工单记载。新财年的数据显示,公司的Agentforce现已按"Agent 对话"收费,ARR 达 8 亿美元,全年增速 169%,累计超 2.9 万笔交易,已走通商业实现。 现在国内日活第一的 Agent 腾讯 WorkBuddy,也是很早就押注 Harness 的玩家。从团队决议做 claw 形式到全量上线,只用了一个星期。能跑得这么快,是由于WorkBuddy的Harness早就在腾讯内部搭建好。在面向商场之前,WorkBuddy就被内部2000多人运用过。员工把会议纪要、跨部门协作、邮件草拟、文档生成这些日常工作交给它,每一次运用和反应都被沉积回Harness里,将Harness打磨得更好。 可是,这不意味着各家公司在各自界说和制造彻底孤立、只精干一件事的 Agent 产品。而是在未来的AI竞赛中,当模型要进入不同职业的事务深水区时,必须放入不同的 Harness 里去锻炼。 这些锻炼的分解不仅是Agent路线的挑选差异,更是企业各自护城河的重塑。代码、协同工作、电商交易等等,不同的场景长出彻底不同的 Harness。由于非代码场景的反应信号极难跨职业复制,在一个场景里磨出来的 Harness,无法直接搬到另一个场景里发力。那么,具有共同事务闭环的玩家,会在自己的领域内树立起壁垒,外来者很难经过单纯堆叠算力或模型规模来打破这种抢先。 三、规范化与智能体生态之争 当 Agent 在不同的 Harness 里锻炼,长出了不同的规矩和行事风格,它们终究需求"彼此说话"。 假如每家都用私有协议、私有调用方法,整个 Agent 生态就会陷入 PC 年代软件之间不能互通、互联网年代浏览器各自实现 HTML 的紊乱。为此,接下来 Agent 竞赛一定会从场景层的工程上升到协议和规范层面,这是 Agent 大规模互通的根底对抗。 Agent 的规范化竞赛现已开端。Anthropic在2024年底推出MCP(Model Context Protocol),把模型如何接入东西、如何获取上下文这件事抽象成职业协议;Google 在2025年4月推出A2A(Agent2Agent)协议,让多个 Agent 之间能跨厂商协作。 究竟,当Agent开端大规模互通,先入者构成的协议网络会成为后来者的进入门槛。谁先把协议铺开、把生态接进来、把开发者留住,谁就在这一层拿到了类似 Android、iOS 的渠道位。 在国内,腾讯、阿里、字节都在跟进,防止在事实规范之外掉队。腾讯云智能体开发渠道全面支撑MCP并上线MCP插件广场;阿里百炼渠道已接入MCP;字节旗下的Trae和Coze也在全面拥抱和兼容MCP。 协议的规范化远不止处理互通这件事自身。协议决议的还有能否让用户安全、信赖地运用Agent,终究能否实现大规模商业化落地。 当Agent能代你下单、付款、签合一起,过程中的风险怎么把控?本年5月,中国信通院联合腾讯、华为、中兴、三大运营商和港中深共同发布的 ATH 协议,开端回应这些问题。这个协议的核心思路是经过用户、Agent 与服务的三方握手来确定权限鸿沟,权限取交集,任何一方缺席都无法经过。 与协议之争一起产生的,还有 Agent 协作根底设施的建造。 当十个 Agent 要协作,光有规范协议还不行。多个 Agent 之间的调度、共享内存、权限鸿沟、上下文路由、安全沙箱等问题是协议层面不能彻底处理的问题,需求一套底层根底设施接受。 这一层根底设施终究会长成什么样,现在没有一致。一种或许是被现有终端进一步集成,它们先拿到屏幕、体系算力和硬件权限,再去调用 Agent;另一种或许是演化出独立的智能体生态,类似于PC年代的 Windows 或移动年代的 Android。 还有一种途径是在已有的超级生态里长出来,这也是现在外界对微信 Agent 大的想象空间。腾讯高管在多个揭露场合提过微信 Agent 的方向。尽管现在还没有正式产品形状,但假如把 14 亿微信用户、450 万小程序,以及掩盖从支付到政务的事务场景,自身便是一张现成的Agent协作网络。Agent不需求从头“搭场子”,它接入的是现已跑通的实在事务,顺着这张网往前走就行。 协议界说Agent之间如何互通,根底设施担任让Agent能稳定运转。能够看到,现在跑在前面的AI公司都在一起考虑这两件事,为抢占Agent年代的竞赛优势做准备。 结语 曩昔看一家 AI 公司的竞赛力,大家习惯性看它的模型有多强、榜单上的分数有多高、烧的钱有多少。但这些问题,只能告知你有没有”发动机”,以及“发动机做得怎样”。 可是,现在职业现已意识到这一套评价方法不行全面和实用。整车要跑上路,还需求一套安全可用的“整车体系”。当OpenAI和DeepSeek等模型层也在补齐Agent所需求的Harness才能时,其实现已提醒了AI竞赛新的评价方法:Harness能不能反向优化自家模型、有没有实在事务场景做反应、能不能在Agent规范化之争中卡位、有没有树立根底底座承载多Agent的协作等等。 模型依然是根本盘,但随着Harness的影响在扩展,每一家AI公司接下来要回答的都不再仅仅“我的模型有多强”,还要想清楚自己在Harness搅动的新AI格局里,要站在哪里? AI 年代一日千里,Harness 也许仅仅一个开端。再过几年,它或许有新的名字,详细形状也或许会演化。但模型与场景之间,总要有一个衔接模型、嵌入事务、沉积反应的中间层。 这一层沉积的除了工程才能,还有事务了解、反应数据,以及一家公司和实在用户之间日复一日的彼此校准。现在来看,这件事情没有捷径,只能在满足长的时间里沉积,在满足大的实在事务中锻炼。 |