租房买房买生意上iU91
蒙城华人网 首页 新闻 综合新闻 查看内容

纽约时报:DeepSeek是如何把价格"打下来"的

发布时间: 2025-2-13 10:40| 查看: 1008| 评论: 0|来自: 纽约时报

纽约时报:DeepSeek是如何把价格"打下来"的

深度求索使用了一些技术手段,大大降低了构建系统的成本。

上个月,一家名为“深度求索”(DeepSeek)的中国初创公司表示,它用比许多专家认为的最低限度要少得多的芯片,打造出世界上最强大的人工智能系统之一,随后美国金融市场出现暴跌。

人工智能公司通常使用装有1.6万枚或更多专用芯片的超级计算机来训练聊天机器人。但深度求索表示,该公司只用了大约2000枚芯片。

正如深度求索工程师在圣诞节甫一过后发表的一篇研究论文中详细说明的那样,这家初创公司使用了一些技术手段,显著降低了系统构建成本。它的工程师只需要约600万美元的纯算力,大约是Meta在构建其最新人工智能技术时所花费的十分之一。

深度求索到底做了什么?这里是一些介绍。

AI技术是如何构建的?

领先的人工智能技术基于科学家所说的神经网络,即通过分析大量数据来学习技能的数学系统。

最强大的系统需要花费数月时间分析互联网上几乎所有的英文文本,以及许多图像、声音和其他多媒体内容。这需要庞大的运算能力。

大约15年前,人工智能的研究者意识到,一种被称为图形处理单元(GPU)的专用计算机芯片是进行这种数据分析的有效方式。像硅谷芯片制造商英伟达这样的公司最初设计这些芯片是为了在电脑游戏中渲染图形。但GPU也擅长运行推动神经网络的数学运算。

随着各家公司将更多的GPU集成到计算机数据中心,它们的人工智能系统可以分析更多的数据。

但最先进的GPU每块售价在4万美元上下,而且需要大量的电力。在芯片之间传输数据比运行芯片本身更耗电。

深度求索是如何把成本降下来的?

它做了很多工作。其中最值得注意的是,它采用了一种所谓的“混合专家”法。

公司通常会创建一个单一的神经网络,学习互联网上所有数据的所有模式。这样做的成本很高,因为它需要大量的数据在GPU芯片之间传输。

如果一枚芯片正在学习如何写一首诗,而另一枚芯片正在学习如何编写计算机程序,它们还是需要相互交流,以防诗歌和编程之间出现某种重叠。

研究人员尝试通过混合专家法来解决这个问题,他们将系统拆分成许多神经网络:一个用于诗歌,一个用于计算机编程,一个用于生物学,一个用于物理学,等等。这样较小的专家系统可能多达100个。每个专家都可以专注在特定领域。

许多公司在尝试这种方法时并不顺利,但深度求索能够很好地做到这一点。它的诀窍是将那些较小的“专家”系统与一个“通才”系统配对。

专家系统仍然需要相互交换一些信息,而通才系统可以帮助协调专家系统之间的互动。通才系统对每个主题都有不错的理解,但比较粗略。

这有点像一个主编负责一个全是专业记者的新闻编辑室。

这样做的效率更高吗?

高很多。但深度求索做的不仅仅是这些。它还掌握了一个涉及小数的简单技巧,只要你还记得小学数学,就能理解。

这里涉及数学?

还记得你的数学老师讲过的π吗?圆周率,也就是π,是一个无限数字:3.14159265358979……

你可以用π来做一些有用的计算,比如确定圆的周长。当你做这些计算时,你会把π缩短到仅几位小数:3.14。使用这个更简单的数字,你就能很好地估算出一个圆的周长。

深度求索在训练它的人工智能技术时做了类似的事情,不过规模要大得多。

让神经网络识别文本模式的数学实际上只是乘法——很多很多很多的乘法。我们说的是数千枚计算机芯片进行持续数月的乘法运算。

通常,芯片会将能放入16位存储器的数字相乘。但深度求索将每个数字压缩到只有八位的存储器中,节省了一半的空间。实际上就是在每个数字中删掉了几位小数。

这意味着每次计算的准确性都会降低。但这并不重要。这些计算准确度足以产生一个非常强大的神经网络。

就这么简单?

这个嘛,他们另外还有一招。

在将每个数字塞进八位存储器后,深度求索在将这些数字相乘时采取了不同的方法。在确定每个乘法问题的答案时——进行有助于决定神经网络将如何运作的关键计算——它将答案扩展到32位存储器中。换句话说,这样就保留了更多的小数,使得答案更为精确。

所以高中生都能做到这一点吗?

当然不是。深度求索的工程师在论文中表明,他们也非常擅长编写非常复杂的计算机代码,告诉GPU该做什么。他们知道如何从这些芯片中榨取更高的效率。

具备这种技能的人不多。但一个人工智能实验室只要有心成事,就能找到与深度求索所做的事情相匹配的优秀工程师。

那为什么他们没有早些做到这一点呢?

一些人工智能实验室可能已经在使用相同的技巧了,至少是其中的一部分。像OpenAI这样的公司并不总是透露他们在幕后所做的事情。

但显然还是有人对深度求索的工作感到惊讶。要做到这家初创公司所做的事情,并不简单。找到这样的突破点所需的实验,需要用到数百万甚至数十亿美元的电力。

换句话说,需要冒巨大的风险。

西雅图艾伦人工智能研究所的研究员蒂姆·德特默斯说,“你必须投入大量资金来尝试新事物——而且它们往往会以失败告终。”德特默斯从事构建高效人工智能系统的探究,之前曾在Meta担任人工智能研究员。

“这就是为什么我们看到的创新没有那么多的原因:人们害怕大量投入都打了水漂,”他补充道。

许多专家指出,深度求索的600万美元只涵盖了这家初创公司在训练系统最终版本时的费用。深度求索的工程师在论文中表示,他们在最终的训练运行之前,还在研究和实验上花费了额外的资金。但任何尖端人工智能项目都是如此。

深度求索进行了尝试,并取得了成功。现在,由于这家中国初创公司已经与其他人工智能研究人员分享了方法,它所采用的技术手段有望显著降低构建人工智能的成本。
标签: DeepSeek

最新评论

免责声明:本文仅代表作者个人观点,与蒙城华人网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如发现稿件侵权,或作者不愿在蒙城华人网发布文章,请版权拥有者通知蒙城华人网处理。
加拿大代孕母亲赴美接受生育治疗遭美方拒绝入境
加拿大代孕母亲赴美接受生育治疗遭美方拒绝
一名加拿大女性近日试图前往美国加州的一家生育诊所进行治疗,却被美国海关和边境保护
苹果高管离职潮震荡,芯片主管或将离职
苹果高管离职潮震荡,芯片主管或将离职
12月7日消息,据彭博社记者马克·古尔曼报道称,苹果公司硬件技术高级副总裁约翰尼·
张柏芝遭前经纪人索赔上千万,憔悴暴瘦现身法庭
张柏芝遭前经纪人索赔上千万,憔悴暴瘦现身
12月5日,有关于违反合约案第三次开庭,张柏芝现身在了香港法庭。据说当时张柏芝的状
马斯克回应"SpaceX冲击8000亿美元估值"传闻
马斯克回应"SpaceX冲击8000亿美元估值"传闻
针对商业航天龙头SpaceX“冲击8000亿美元估值,并瞄准明年IPO”的最新传闻,世界首富
华裔女子起诉WestJet索赔7.5万美元:指控机组人员骚扰她
华裔女子起诉WestJet索赔7.5万美元:指控机
洛杉矶华裔女演员Charlet Chung指控WestJet机组在去年的一趟航班上“欺辱、羞辱、恐吓
工会警告:公务员裁员开始了 数百名公共部门员工职位不保
工会警告:公务员裁员开始了 数百名公共部
随着政府着手缩减公共服务规模,数百名工人已被警告他们可能会失去工作。加拿大公共服
加拿大一栋刚过户4天房屋发生离奇爆炸:没有任何起火迹象
加拿大一栋刚过户4天房屋发生离奇爆炸:没
周五上午大约10点36分,急救人员接到电话,前往安省Bayham市的Sandytown Line,一栋房
蒙特利尔这家甜品店否认是犯罪集团的据点
蒙特利尔这家甜品店否认是犯罪集团的据点
魁北克省Laval警方正在调查过去两天内发生在多家当地咖啡馆和餐厅的一系列枪击事件,
蒙特利尔南岸一女子死在公寓中 一人被捕
蒙特利尔南岸一女子死在公寓中 一人被捕
蒙特利尔警方正在调查一宗可疑死亡事件,一名女子被发现在南岸一间公寓内身亡。警方在
Cineplex家庭影院开播 电影票只要3.99元
Cineplex家庭影院开播 电影
蒙特利尔Cineplex每周六早上11点的家庭影院又开始了,
魁省五百元优惠机票可以去哪儿玩?
魁省五百元优惠机票可以去哪
2022年6月1日起,魁省政府推出了“空中准入地区计划”
蒙特利尔郊外新开一家北美最大的蹦床公园
蒙特利尔郊外新开一家北美最
魁北克省 Mont-Saint-Grégoire 山脚下新开了一家北美
魁省迎来北美第一家全包型滑雪度假村 现在只要160元
魁省迎来北美第一家全包型滑
近日,全球知名的法国度假连锁集团Club Med宣布位于魁
刺激!飞跃安魁两省边界!400米长滑索开放!
刺激!飞跃安魁两省边界!40
安省和相邻省的边界已正式开放!肯定会有很多小伙伴驾

Copyright © 1999 - 2025 by Sinoquebec Media Inc. All Rights Reserved 未经许可不得摘抄  |  GMT-5, 2025-12-7 14:14 , Processed in 0.131842 second(s), 23 queries .