租房买房买生意上iU91
蒙城华人网 首页 新闻 综合新闻 查看内容

全球最强编程模型来了!连干七小时性能稳定

发布时间: 2025-5-22 17:49| 查看: 916| 评论: 1|来自: 华尔街见闻


Anthropic称,作为全球最佳编程模型,Claude Opus 4能在需要专注努力和数千步骤的长时间任务中保持稳定表现,电商乐天验证它可连续工作七小时;SWE-bench测评中,Claude Sonnet 4准确度72.7%,较Sonnet 3.7版的62.3%显著提升;Claude Code正式上线,得到两款Claude 4模型支持。


OpenAI的劲敌Anthropic发布Claude 4系列模型,称Opus 4为"全球最佳编程模型",对AI投资者而言标志着模型能力的新纪元,可能重塑软件开发行业格局。

除了新模型,Anthropic还宣布,编程工具Claude Code正式上线,并提供新的功能供连接到其模型的开发者使用,包括将推理与网页搜索和其他工具相结合的能力。

Anthropic的新发布加剧了与OpenAI、Google在顶级模型领域的竞争,为投资者提供了重新评估AI领域竞争格局的机会。

Opus 4精于编码 Sonnet 4较3.7版明显提升

美东时间5月22日周四,Anthropic在公司首届"Code with Claude"开发者大会上推出了Claude 4系列的两款全新模型:Claude Opus 4和Claude Sonnet 4。

Anthropic将Claude Opus 4称为"公司迄今最强大的模型,也是全球最佳编程模型",而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升级,提供卓越的编码和推理能力,同时更精确地响应用户指令。

Anthropic称,Opus 4在编码、研究、写作和科学发现方面突破了界限,而 Sonnet 4 作为 Sonnet 3.7 的即时升级,为日常用例带来了前沿性能。

在SWE-bench软件工程任务基准测试中,Opus 4得到72.5%的准确度成绩,在Terminal-bench上达到43.2%。Sonnet 4则在SWE-bench上达到72.7%,相比得到62.3%成绩的Sonnet 3.7版本有显著提升。

Opus 4和Sonnet 4都采用了混合模式设计,既可提供几乎即时的回应,也能进行更深入的推理思考、即扩张思维。

在Anthropic的Pro、Max、Team 和 Enterprise Claude 套餐中包含了上述两种模型的能力,Sonnet 4模型也面向免费用户开放。新模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。

定价与之前的Opus 和 Sonnet 模型一样:Opus 4 为每百万token输入和输出分别收费15美元和75 美元,Sonnet 4的百万token输入和输出分别收取3美元和15 美元。

Anthropic产品负责人Scott White表示,此次发布标志着

"Claude从一个提供答案的工具转变为一个真正有能力的协作伙伴"。

超长持续工作能力:AI代理的革命性突破

Opus 4最引人注目的特点是其惊人的持续工作能力。据Anthropic介绍,该模型能够在需要专注努力和数千步骤的长时间任务中保持稳定表现,可以连续工作数小时。

Anthropic称,日本电商巨头乐天(Rakuten)已验证了Opus 4的能力,在乐天要求严格的一项开源重构任务中,该模型独立运行了7小时,且这期间保持稳定的性能。

这种持久的注意力和工作能力使Opus 4特别适合复杂的编码和问题解决场景。

代码编辑平台Cursor称Opus 4为"编程领域的最新技术,在复杂代码库理解方面实现了飞跃"。编程平台Replit则表示,在跨多个文件的复杂更改方面,Opus 4取得"显著改进"。

扩展思考与工具使用:AI的思维质变

两款新模型都引入了"扩展思考与工具使用"功能(测试版),允许Claude在思考过程中使用网络搜索等工具,在推理和工具使用之间交替以改进回应。这些模型还能并行使用工具,更精确地遵循指令,并在开发者授予本地文件访问权限时展示显著改进的记忆能力。

特别值得注意的是,Opus 4在记忆能力方面大幅超越了所有以前的模型。当开发者构建的应用程序提供Claude本地文件访问权限时,Opus 4能够创建和维护"记忆文件"来存储关键信息,这解锁了更好的长期任务意识、连贯性和代理任务性能。

Claude Code正式上线:AI开发新时代

在模型发布的同时,Anthropic宣布,在测试收到“广泛的积极反馈”后,Claude Code正式全面推出。现在通过GitHub Actions支持后台任务,并与VS Code和JetBrains原生集成,直接在开发者文件中显示编辑,实现无缝结对编程。

Claude Code 由 Opus 4 和 Sonnet 4 提供支持,让Anthropic 的大语言模型(LLM)拥有更多功能,因为它可以编写代码来分析数据。用户甚至可能不知道 Claude 在为完成任务编写和调试代码,但它的编码能力将使模型在分析大量数据时能够运用思维。

Scott White表示:"编码是一个快速增长、非常令人兴奋的市场。"

White 任务,Claude Code 不仅适合那些希望为旗下软件工程师提供工具进而提高自身专业技能的公司,也适合那些可能不懂编程的人。

他举例说,如果一位产品经理正在向团队推荐一个点子,他们就不必仅仅创建一份文档来解释相关概念,而是可以找到Claude,并请 Claude 创建这个点子的原型。

AI巨头竞赛加剧:行业格局再洗牌

据彭博社报道,这次发布来自于AI领域异常繁忙的一周,期间微软宣布了新的编码代理和与Elon Musk的Grok的合作伙伴关系,Google扩大了其AI支持的搜索功能,OpenAI宣布了65亿美元的交易收购由Jony Ive领导的AI硬件初创公司io。

这表明Anthropic、Google和OpenAI之间的"最佳前沿模型"竞争正在升温,同时对这些公司能否将当前AI技术推向新高度的疑问依然存在。

投资者视角:重新评估AI竞争格局

对投资者而言,Claude 4系列的推出标志着AI能力的一个新纪元。特别是在编程领域,Anthropic声称已经取得了领先地位,这可能对软件开发行业产生深远影响。GitHub已表示Claude Sonnet 4将成为GitHub Copilot中新编码代理的基础模型,这进一步验证了其能力。

随着AI竞争的加剧,投资者需要重新评估行业格局,尤其是Anthropic相对于OpenAI和Google等竞争对手的地位。Claude 4系列在编码、推理和代理任务方面的强大表现,可能为Anthropic赢得更多市场份额和企业客户提供了机会。
标签: 人工智能
发表评论

最新评论

引用 Weiliang 2025-5-22 19:43
在计算机的内存和速度都较低的时期,编程都很讲究优化,以减少存储和提高速度。现在硬件已经进化很多,新的软件都不在乎内存和速度了。所以当得不到高级芯片时,编程中还有优化的余地。最极端的可以退到机器语言。

查看全部评论(1)

免责声明:本文仅代表作者个人观点,与蒙城华人网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如发现稿件侵权,或作者不愿在蒙城华人网发布文章,请版权拥有者通知蒙城华人网处理。
入境美国规定很乱 加拿大人感到困惑 专家如此说.
入境美国规定很乱 加拿大人感到困惑 专家如
福贝尔夫妇(Angela and Leigh Faubert)多年来一直往返于美国,整个冬天都花上几个月的
下任Fed主席呼之欲出 特朗普为何对他青睐有加?
下任Fed主席呼之欲出 特朗普为何对他青睐有
在2025年12月的华盛顿,政治与金融的交汇点再次成为焦点。11月30日,美国总统特朗普在
卢浮宫埃及古物图书馆发生严重漏水 多部古籍受损
卢浮宫埃及古物图书馆发生严重漏水 多部古
当地时间12月7日,卢浮宫一封11月27日的内部邮件被公布。邮件称,卢浮宫内的埃及古物
杜海涛又和章泽天约饭啦,两人已成了好朋友!
杜海涛又和章泽天约饭啦,两人已成了好朋友
章泽天和杜海涛又聚餐了!两人已成了好朋友!两人已结下深厚友谊!他在留学圈中非常出
卡尼政府联邦裁员无法控制开支:耗费15亿每年节省8200万
卡尼政府联邦裁员无法控制开支:耗费15亿每
安省保守党国会议员Vincent Ho在渥太华国会山质询期间提了一个简单问题,却得到一个令
玩比特币注意!加拿大税务局有专人审计
玩比特币注意!加拿大税务局有专人审计
加拿大税务局(CRA)“加密资产审计员”团队在过去三年里处理了200多个案件,追缴税款
加拿大人入境美国被"恶心": 填表拍照录指纹, 还得交$30! ...
加拿大人入境美国被"恶心": 填表拍照录指纹
安吉拉(Angela)和利·福伯特(Leigh Faubert)夫妇俩去美国很多年了,每年冬天都会
蒙特利尔航空公司飞行员要罢工了 注意下周航班
蒙特利尔航空公司飞行员要罢工了 注意下周
Air Transat 的飞行员在假日旅游旺季即将到来之际,向这家经营状况已经不佳的公司发出
蒙特利尔南岸一废弃建筑物起火 一人死亡
蒙特利尔南岸一废弃建筑物起火 一人死亡
周六深夜,蒙特利尔南岸一栋废弃建筑前发生火灾,造成一人死亡。警方与消防人员在晚间
Cineplex家庭影院开播 电影票只要3.99元
Cineplex家庭影院开播 电影
蒙特利尔Cineplex每周六早上11点的家庭影院又开始了,
魁省五百元优惠机票可以去哪儿玩?
魁省五百元优惠机票可以去哪
2022年6月1日起,魁省政府推出了“空中准入地区计划”
蒙特利尔郊外新开一家北美最大的蹦床公园
蒙特利尔郊外新开一家北美最
魁北克省 Mont-Saint-Grégoire 山脚下新开了一家北美
魁省迎来北美第一家全包型滑雪度假村 现在只要160元
魁省迎来北美第一家全包型滑
近日,全球知名的法国度假连锁集团Club Med宣布位于魁
刺激!飞跃安魁两省边界!400米长滑索开放!
刺激!飞跃安魁两省边界!40
安省和相邻省的边界已正式开放!肯定会有很多小伙伴驾

Copyright © 1999 - 2025 by Sinoquebec Media Inc. All Rights Reserved 未经许可不得摘抄  |  GMT-5, 2025-12-7 19:16 , Processed in 0.127714 second(s), 23 queries .