AI造AI,已经发生了!Anthropic重磅长文揭秘,超80%代码由Claude编写,工程师人均产出暴增8倍,Mythos研究提速52倍。看着如此恐怖的进化速度,Anthropic却发出呼吁:必要时,请暂停AI研发。 AI造AI的时代,已然降临! ![]() 就在刚刚,Anthropic扔出了一篇重磅长文:When AI builds itself(当AI开始造AI)。 打开这篇博客,满屏只透出一个词:加速! ![]() 这一次,他们用最硬核的真实数据,把AI“递归自我改进”(RSI)彻底砸到了台面上—— 在Anthropic内部,超80%的代码,全由Claude编写; 工程师人均代码产出较2024年暴涨8倍,许多研究员已经5个月,没有手写过一行代码; 最开放的工程难题上,Claude成功率半年从26%飙到76%; 优化训练代码,人类4-8小时做到4倍加速,Claude Mythos Preview直接干到52倍。 ![]() ![]() “递归自我改进”的奇点尚未彻底降临,但它逼近的速度,恐怕已超出全球所有顶尖实验室的准备。 然而,最具戏剧性的一幕出现了: 就在Anthropic不断铺陈RSI,将以何等惊人的速度到来时,却突然发出严肃呼吁—— 必要时,一起按下前沿AI的“暂停键”。 ![]() 一时间,这篇博文全网刷屏,许多人疯狂安利:墙裂建议每个人都读一读! ![]() ![]() ![]() 80%的代码,出自Claude之手 整篇文章,Anthropic都在向外界证实一个令人胆寒的现实—— Claude正在疯狂按下AI进化的“加速键”。 他们正在蹚出一条通向“递归自我改进”的现实路径:让AI亲手打造出比自己更强大的下一代系统。 ![]() 而这一切,比所有人预想的还要快。 截至2026年5月,Anthropic合入代码库的代码中,超80%由Claude撰写。 而在2025年2月Claude Code发布之前,这个数字还停留在“个位数”。 一年多时间,从“打打下手”到“包揽八成”。 ![]() Claude进化时间线 产能端的变化更直观。2021到2024年,Anthropic工程师人均每天合入的代码量基本是一条水平线。 2025年,Claude开始自己运行代码,曲线第一次上扬; 2026年,模型开始在更长时间跨度上自主工作,曲线第二次陡升。 到2026年第二季度,典型工程师的日代码合入量,已经是2024年的8倍。 ![]() 一位Anthropic员工的自述更扎心: 大约一年前我开始全力“Claude化”。这是一场疯狂的冒险——到现在,我已经有约5个月没自己写过任何代码了。 ![]() 不过,Anthropic也很诚实地补了一刀: 代码行数衡量数量多过质量,8倍肯定高估了真实生产力。 但2026年3月,对130名研究人员的内部调查显示,中位数受访者估计,自己的产出是没有AI时的4倍左右。 ![]() 不光写得多,写得还比人好 量大管饱,那Claude输出的质量如何? Anthropic给出了两个判断标准:代码能不能跑,以及别的工程师能不能看懂、能不能在上面继续盖楼。 第一条,证据已经非常硬核。 过去一年,研究员纠正、打断、中途接管Claude任务的比率持续下降—— 哪怕是在最复杂、最开放的任务上。 在最开放的任务难度档位上,Claude的成功率在2026年5月达到了76%,6个月暴涨50个百分点。 ![]() 举个真实案例:一次例行升级,突然让数万个训练任务集体崩溃。 工程师只丢给Claude一段文字描述和集群权限,Claude在运行中的任务里逐一排查环境变量,揪出了那个极其隐蔽的调试标志,复现、验证、修复 两小时,Claude干完了正常需要两三天的活。 ![]() 更夸张的是2026年4月的一次“大扫除”,Claude一口气提交了800多个修复,把一类API错误压低了1000倍。 负责监督的工程师估算:这些活儿如果让人来干,得花4年。 第二条标准,差距还在,但正在以肉眼可见的速度消失。Anthropic内部的共识是: 我们预计Claude编写的代码,将在今年内全面超越人类。 ![]() Claude写代码,Claude审代码,这个闭环已经转起来了。 ![]() 一年提速52倍,Claude暴击人类 如果说写代码只是工程层面,那真正让人脊背发凉的,是研究层面的进展。 Anthropic每次发新模型,都会做同一个测试: 给Claude一段训练小型AI模型的代码,要求它在保证正确性的前提下,跑得越快越好。 这本质上,就是一个微缩版的AI研究实验循环——改代码、跑、计时、再改。 看看这份极具压迫感的“成绩单”: 2025年5月:Claude Opus 4约3倍加速2026年4月:Claude Mythos Preview约52倍加速 而一位熟练的人类研究员,需要4到8小时,才能做到4倍。 一年时间,Claude从“超级有用”到“超人水平”。在这种目标明确的实验优化环节,人类已经被甩出了一个数量级。 ![]() 更重磅的是,Claude开始展现“研究判断力”的苗头。 Anthropic做了一个极其刁钻的实验:他们翻出真实研究session里人类研究员“走弯路”的129个时刻,把弯路之前的全部上下文喂给Claude,问它:下一步该怎么走? 再让另一个能看到完整结局的Claude当裁判。
标签: 科技
最新评论免责声明:本文仅代表作者个人观点,与蒙城华人网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如发现稿件侵权,或作者不愿在蒙城华人网发布文章,请版权拥有者通知蒙城华人网处理。
![]()
▌相关阅读
Copyright © 1999 - 2026 by Sinoquebec Media Inc. All Rights Reserved 未经许可不得摘抄 | GMT-4, 2026-6-5 18:04 , Processed in 0.129767 second(s), 23 queries . |