
咨询服务热线:400-099-8848
斯坦福新研讨:AI“黑客”体现逾越9成人类专家,本钱仅1/14 |
| 发布时间:2025-12-12 文章来源:本站 浏览次数:10 |
斯坦福大学的研究不仅揭示了AI在网络安全领域的颠覆性潜力,更重要的是它以极低的成本和效率,对现有的安全攻防体系提出了根本性挑战。12月12日音讯,昨日,斯坦福大学研讨团队发布新研讨,在探查斯坦福大学工程学院网络缝隙的测验中,他们新推出并开源的Multi-Agent(多Agent)结构ARTEMIS体现逾越了90%的人类专家,全面逾越现有的Agent结构,而其实际本钱约为人力的1/14。 ARTEMIS具有动态提示生成、任意子Agent调用和自动缝隙分级评价功能,在实际应用中,它能完成杂乱的网络使命,可以对网络进行扫描,找出潜在缝隙和软件安全隐患,并探寻利用这些缝隙的方法。 本次试验,研讨人员让ARTEMIS与10名人类浸透测验专家、多个现有的Agent结构共同履行使命,让他们对斯坦福大学工程学院的网络进行探查,但不得实际侵略,以此来全面评价他们的探查才能。成果显示,根据OpenAI的GPT-5的ARTEMIS结构综合体现位列第二,共发现9个有用缝隙,提交有用率达82%,其体现优于十位人类参与者中的九位,全面碾压其他Agent结构,包含根据同一底层模型GPT-5的单Agent自主结构Codex和CyAgent。 ![]() ▲P为人类网络安全专业人员;A1、A2分别是ARTEMIS两个不同装备的结构,前者根据GPT-5,后者根据集成模型;CO、CS和CG分别是运用GPT-5模型作为基础来运转的单Agent自主结构Codex、运用Claude Sonnet 4模型作为基础来运转单Agent自主结构CyAgent和运用GPT-5模型作为基础来运转CyAgent。 除了具有与顶尖浸透测验专家适当甚至逾越的功能之外,ARTEMIS把本钱也打下来了,搭载GPT-5的ARTEMIS结构每小时本钱约为18美元(约合人民币127.1元),约为美国浸透测验员时薪的1/14。 不过,论文指出,ARTEMIS还存在处理根据图形用户界面(GUI)的使命时有困难、比人类更高的误报率等短板。 该论文现已发布在arXiv上,题为《将AI Agents与网络安全专业人员在真实国际浸透测验中的体现进行比较(Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing)》。 ![]() 一、综合排名第二,全面碾压现有Agent结构,还能提升原始模型功能 研讨人员建立了ARTEMIS结构下的两个对照组,以评价不同装备下的ARTEMIS结构功能。一个是运用OpenAI的GPT-5作为监督器和子Agent的A1,另一个是运用集成模型作为监督器、Anthropic的编程模型Claude Sonnet 4作为子Agent的A2,集成模型包含了以下模型:OpenAI的推理模型o3和o3 Pro、Anthropic的编程模型Claude Sonnet 4和Claude Opus 4,以及谷歌的Gemini 2.5 Pro。 从成果来看,A2在和一众人类浸透测验专家、现有的Multi-Agent结构的比较中位列第二名,共发现9个有用缝隙,提交有用率达82%,其体现优于10位人类参与者中的9位。A1则打败了5名人类参与者,位列第七名。 除ARTEMIS外,分数高的Agents结构CO(根据GPT-5的Codex)仅逾越了两位人类参与者,而CS(根据Claude Sonnet 4的CyAgent)和CG(根据GPT-5的CyAgent)落后于所有人类参与者,CS的总得分仅为A2的四分之一。 从缝隙的质量来看,人类参与者发现的Critical(要害)缝隙占有了更大的份额;ARTEMIS结构的两个装备A1和A2发现的要害缝隙份额更小,且误判的内容相对较多;A1和A2尽管提交了相同数量的缝隙,但A1的正确率仅为55%,要害缝隙仅占18%,而A2的要害缝隙占比则达到了45%,这表明不同的模型组合和装备对结构全体功能有影响,A2的多模型架构可能在处理杂乱使命和削减误报方面更为有用。 ![]() 在时刻上,人类参与者和ARTEMIS结构的体现也不尽相同。ARTEMIS结构体现出了长时刻、继续、但间歇性产出的节奏,在提交缝隙之间通常有更长的间隔时刻;人类参与者则呈现出了高度可变、依赖灵感和集中迸发的节奏。他们的活泼时刻(通过键盘输入判断)和缝隙提交时刻点散布不均匀。 ![]() 值得一提的是,ARTEMIS和人类底子的区别是,ARTEMIS在发现一个值得重视的方针后,会立即在后台发动一个专用的子Agent去勘探它,同时主线继续进行其他作业,在峰值时,ARTEMIS可以达到8个子Agents并行运转。 此外,从网络安全基准测验Cybench的体现来看,在根据GPT-5的Artemis结构和Claude 4.5 Sonnet、GPT-5等模型才能对比中,ARTEMIS以48.6%的成功率位列第二,仅次于Claude 4.5 Sonnet(55%),且略高于其底层模型GPT-5(45.9%)。 ![]() 这一成果意味着,ARTEMIS结构在处理网络安全问题中,具有与顶级大模型适当的才能,且在必定程度上提升了基础模型的功能。 二、由监督器、子Agent、分级器组成,本钱仅为人类专家的1/14 现有的针对网络安全AI Agent的研讨主要有三类:一是PentestGPT等需要人类引导等半自主结构;二是Codex、CyAgent等能独立运转但才能有限的单Agent自主结构;三是Incalmo、MAPTA等Multi-Agent(多Agent)自主结构。 论文中提到,ARTEMIS是一个杂乱的Multi-Agent结构,被规划用来对真实国际的出产体系进行长周期、杂乱、浸透性测验,该结构目前已开源。 它有三个中心组件:一个监督器,担任办理作业流;一组任意子Agents集群,担任履行具体使命;一个缝隙分级器,担任缝隙验证。 ![]() ARTEMIS学习了现有编程Agent的规划,并通过使命列表、笔记体系和智能摘要机制,达到了比现有Agent继续运转时刻更长的才能。在分配使命时,其自定义提示生成模块会为子Agent创立使命特定的体系指令。因而,ARTEMIS有着动态生成体系提示、上下文办理和分级陈述等功能的优势性。 此外,ARTEMIS在经济本钱上也适当占优。以根据GPT-5的ARTEMIS结构A1来看,论文指出,A1每小时本钱约为18.21美元(约合人民币128.6元),按每周40小时核算,其年化本钱约为3.78万美元(约合人民币26.7万元)。 而人类浸透测验人员的每日收费通常在2000至2500美元左右(约合人民币1.41万元至1.77万元),按每日作业8小时核算,时薪约为250美元至312美元(约合人民币1765元至2204元),是ARTEMIS结构每小时本钱的14倍多;市场上美国浸透测验员的的年薪平均为12.5万美元(约合人民币88.29万元),是ARTEMIS结构年本钱的3倍多。即使是运用每小时本钱更高的A2(约为59美元,约合人民币416.7元),其本钱也低于人类专家。 三、具有履行技能,短板是找不到缝隙和GUI约束 不过,据《华尔街日报》报导,ARTEMIS并非完美无缺,在误报率上,A2误报了18%的缝隙,A1失误的更多。除了失误外,ARTEMIS还完全遗失了一个大多数人类测验人员能容易发现的显着缝隙。 ARTEMIS频繁提交缝隙陈述,却很少发现方针缝隙,而且总是发现低严重性、低杂乱度或无法利用的缝隙。这种遗失与误报的背后,可能与ARTEMIS的决策逻辑有关。论文指出,ARTEMIS结构提交缝隙陈述次数的添加与未发现方针缝隙存在相关性,这可能是因为ARTEMIS在主机上发现其他缝隙后便转移了方针。 研讨人员称,ARTEMIS的瓶颈在于辨认缝隙形式而非技能履行才能。在中、高等级的提示下,ARTEMIS成功找到了大部分方针缝隙,这表明ARTEMIS具有缝隙的技能履行才能。当提示信息削减,仅提供低等级、仅信息和仅主机提示时,ARTEMIS成功率急剧下降,即它的自主辨认进犯入口和辨认缝隙的才能缺乏。此外ARTEMIS还存在行为不确定性,在“未经身份验证的长途控制台拜访”这一使命中,ARTEMIS在高等级提示下依然使命失败,在中等级和仅主机提示下却能完成使命。 ![]() 此外,ARTEMIS还存在一个要害约束,作为根据命令行和文本剖析的AI,它无法通过图形用户界面(GUI)与浏览器进行交互。 斯坦福大学工程学院体系与网络安全担任人亚历克斯·凯勒(Alex Keller)称:“此前斯坦福大学的网络从未遭受过AI程序的进犯,此次试验似乎是弥补斯坦福大学网络安全缝隙的一种有用方法。在我看来,试验的益处远大于任何风险。” 斯坦福大学核算机科学教授丹·博内(Dan Boneh)为该研讨提供了主张:“鉴于全球大部分代码都未通过安全缝隙测验,ARTEMIS等东西将帮助网络安全专业人士发现并修复比以往更多的代码缝隙。”此次测验,ARTEMIS就发现了斯坦福大学存在的一个有安全问题的过期网页。 结语:正探索多Agent结构的装备优化与架构迭代 在真实环境中与人类的浸透测验和基准测验Cybench均显示,ARTEMIS不仅在其在杂乱实际使命中达到了可与顶尖人类专家相等甚至逾越的才能,在显著优于其他现有Agent结构的同时还做到了不危害模型的原始才能,并在原始模型上完成了才能的提高。 为软件开发者与白帽黑客提供协作渠道的组织HackerOne的调研陈述指出:当前已有70%的安全研讨人员开端选用AI东西辅助缝隙发掘。 AI在自动化网络进犯范畴正在走向实战应用。研讨人员称,他们未来将继续探索这一范畴,创立可运转的环境副本,对不同的Agent架构、装备和模型进行消融试验,优化基础设施,还将与企业合作展开缝隙赏金计划等。如何驾驭这股力量,将是人类社会面临的共同考验。 |