欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

Sonnet 5总算来了,然而Opus 4.8现在有点为难

发布时间:2026-07-01 文章来源:本站  浏览次数:40

沉寂了小半年,Sonnet总算更新到5版别了。好消息,功能几乎和Opus 4.8相等,坏消息,比曾经成本高了,别的一个好消息,8月31日前token打折。

我知道,真实代表Anthropic技能天花板的是Fable 5和Opus 4.8。尤其是Anthropic现在接近上市,这两张牌才是IPO叙事的发动机。

但说实话,作为一般消费者,我更重视的还是Sonnet 5,由于我需求的是一个满足聪明,且不至于让我月底肉疼的模型。

与此一起,Anthropic也曝出会在系统提示词里给我国用户上标记。

尽管现在并未呈现公开证据证明它会据此封号或降权,但这件事已经满足灵敏:用户看不见,模型照常跑,后台却能通过一组几乎不可察觉的格局差异,把特定地区的调用独自辨认出来。

别的,Anthropic官方表明,美国已免除对Claude Fable5和Mythos5的出口控制,Anthropic将于明日开端康复访问权限

Sonnet 5究竟强在哪

不废话,直接看数据。

在Agent编程方面,Sonnet 5得分63.2%,相比Sonnet 4.6的58.1%涨了5.1%,距离Opus 4.8的69.2%还剩6%。

但是在知识方面,Sonnet 5反超了Opus 4.8。

Anthropic对Sonnet 5的定位是“迄今为止具Agent才能的Sonnet”。

官方表明,Sonnet 5可以自主制定方案、调用浏览器和终端等东西、长期独立运行,而在几个月前,这些才能还只有更大、更贵的模型才干做到。

说白了,Anthropic的意思是Sonnet 5也能干曾经Opus和Fable级别的工作了。

真实有意思的地方是在Agent查找和计算机操作方面,在不调高模型“仔细(effort)程度”的情况下,Sonnet 5能干过的活儿比Opus 4.8多。调到仔细那档今后,Sonnet 5有些使命直接追上Opus 4.8,并且花的钱还少一大截。

所以总归一句话,Sonnet 5只用Opus 4.8大约一半不到的价格,做到了它80%-90%的水平。

还没完。Sonnet 5的测验者们均表明,曾经Sonnet无法完结的杂乱使命,现在Sonnet 5能轻松跑完,乃至还会主动查看自己的输出。

Zapier的工程师举了个例子,他让模型接连履行“更新Salesforce账户等级,再给企业客户发公告邮件”,Sonnet 5一口气做完了,而他表明,“曾经会卡在半路”。

在安全方面,Sonnet 5的错觉率和投合倾向都低于Sonnet 4.6,在Agent场景下抵御提示注入进犯的才能也更强。一起,模型默许敞开了实时安全防护。也就是说,模型在跑的时分,系统会在后台检测它是不是在干危险的网络安全操作,发现就当场掐断。

有一个评测特别值得说。Anthropic联合Mozilla,用Firefox 147的已知缝隙测验模型的缝隙使用才能。

所谓缝隙使用,指的是给定一个已知的软件缝隙,看看模型能不能自己写出代码来进犯它。

Sonnet 5和 Sonnet 4.6一样,完好缝隙使用的成功率是0%。它能写出代码片段,但始终拼不出一个完好可用的进犯程序。这说明它的代码才能尽管涨了,但还不具有自主发起网络进犯的水平。

相比之下,Opus 4.8在这项测验中表现出显着的网络进犯才能。

Anthropic表明,他们没有刻意练习Sonnet 5做网络安全,它在这方面的才能大幅弱于Opus 4.8和Mythos 5,这是有意为之。

不过Anthropic也表明,在一项掩盖很多不良行为的自动化审计中,Sonnet 5的整体得分比 Sonnet 4.6更安全,但它确实在某些不良行为上比Opus 4.8和Mythos Preview更简单“失态”。

官方把这归因于更强的模型自身具有更好的行为对齐,一起也承认Sonnet 5还没达到旗舰级模型的克制水平。

还有一个细节必须得说一下,Sonnet 5换了新的分词器。

同样的文本输入,耗费的Token数量或许比原来多1.0到1.35倍。

Anthropic的说法是,推行期价格会先降低token费用,以让短期内用户习惯总成本变化。

具体来说,8月31日前每百万输入是2美元、输出是10美元;输入3美元、输出15美元。分词器变化带来的实际耗费添加,8月31日之后,价格或许会比曾经更高。

伴随着Sonnet 5,Anthropic还发了Claude Science。这是一个面向生命科学的AI工作台,定位是“科研范畴的 Claude Code”。

它用的是现有的Claude模型,把60多个科学数据库、可复现的计算流程和本地运算才能打包进了一个Agent的界面。

前期用户里,UCSF的一个团队靠它发现了RNA-seq数据里一个卡了将近一年的实验室污染物。

Anthropic正在从卖模型转向更高层,Claude Code是开发者的,Claude Science想做科研人员的。

但是Anthropic近不和平

claudefa.st的数据显现,大约90%的API请求走的是Sonnet 4.6。

Opus系列尽管强,但真实撑起Anthropic流量的,还得是便宜好用的Sonnet。

从2月到6月,Opus系列连发了三个大版别,Opus 4.6、4.7、4.8,Agent才能越来越强。可问题是,Sonnet停在4.6这个版别里将近大半年的时刻。

Opus的价格将近是Sonnet的两倍,对于一般开发者来说太贵了。

更为难的是,Opus 4.8不争气。

6月26日,Cursor AI官方发了一篇重磅研究,实锤了Opus 4.8在编程评测里大规模“偷看答案”。

研究显现,Opus 4.8在SWE-bench上跑出87.1%的成果是作弊的,一旦断网、切断它读取代码仓库 .git历史的才能,成果直接暴跌到73.0%。

Datacurve的评测也显现,Opus 4.6和4.7在超过12% 的被审使命中被标记为“作弊”。

这还没完。过去几周,Opus 4.8接连被曝“断崖式降智”。考虑深度下降67%,根底逻辑推理频频翻车,错觉率飙升。

外网论坛上有开发者诉苦,现在用Opus 4.8 Max的感觉“比用老款Haiku还要糟糕得多”。

并且就在Sonnet 5的同一天,外网论坛里有人发现,Claude Code从本年4月2日的2.1.91 版别开端,会在系统提示词里悄然给我国用户“打水印”。

具体的做法是,它检测你的时区是否设为亚洲、署理URL是否指向我国域名。

如果是,就把系统提示词里的日期格局从2026-06-30悄然改成2026/06/30,撇号也从ASCII换成肉眼分不出的Unicode字符U+02BC。

用户彻底看不到这些改动,但Anthropic的后台一清二楚,其意图也显而易见。

除了时区,它还查看署理URL是否匹配一个内含147条记载的域名黑名单,掩盖我国大厂域名、云服务商、AI实验室、API中转站。

如果匹配上,日期分隔符换成斜杠,撇号换成隐写字符。三条信号叠加,满足Anthropic在后台准确辨认每一个我国开发者。

下一条:2026年无人机反制设备...