租房买房买生意上iU91
蒙城华人网 首页 新闻 综合新闻 查看内容

谷歌AlphaGenome横空出世:揭示DNA天书

发布时间: 2025-6-26 18:14| 查看: 1267| 评论: 1|来自: 新智元

基因组,宛如生命的蓝图,藏在我们每一个细胞之中。

这套完整的DNA指令集,主导着生命体从外观功能到生长繁殖的几乎每一个方面,甚至是对疾病抵御的能力。


2003年,人类基因组测序完成,让人类首次窥见了DNA的全貌。

然而,如何破译这些指令,一个微小DNA变异如何改变生命轨迹,至今仍是生物学的未解之谜。

现在,这个局面将被彻底改写。

今天,谷歌DeepMind重磅发布AlphaGenome——一款革命性的AI工具,以及103页的详细技术报告。

一个模型,可读取100万个DNA碱基,并预测任何基因变异/突变如何改变分子的功能。

它不仅限于单个基因预测,而是贯穿了整个调控基因组。

诚如网友所言,“DNA就是代码,而你就是软件”。

比如,它可以回答“某个基因的活性是会增强还是减弱”。而这,正是生物学家们在实验室中,需要通过大量实验来反复验证的问题。

那么,这是如何做到的?

AlphaGenome以长DNA序列为输入,经过数据处理后,通过表征其调控活性来预测数千种分子特性。

诺奖得主Demis Hassabis曾在采访中坚定地表示,“未来十年,AI将会治愈所有疾病”。

如今,AlphaGenome的诞生,让这一宏伟的愿景更进一步。

它可以让科学家快速预测基因变化可能带来的影响,推动生物学的全新发现与新疗法的诞生。

解密生命密码:DeepMind开启NDA研究新纪元

在解密生命“密码”这一领域,谷歌DeepMind早已展开布局。

5年前,蛋白质预测模型AlphaFold出世,在业界曾掀起海啸级巨震,还登上了Neture、Science年度十大科学发现榜单。

从初代AlphaFold到AlphaFold 3,阶跃式进化,成功预测了人类98.5%蛋白质,并拿下2024年诺贝尔奖。

这项世界级成果催生了专注于药物发现的衍生公司Isomorphic Labs,引领了用AI设计新药的浪潮。

AlphaGenome的出世,再一次拓展了AI在NDA领域的研究。

人类基因约有30亿个碱基,但其中只有不到2%的序列,用于编码蛋白质,其余98%被称为非编码区。

然而,它们对调控基因的活性至关重要,并包含了大量与疾病相关的变异位点。

直到现在,生物学家实际上无法看清它是如何运作的。

AlphaGenome正是为解读这些广阔的非编码序列及其内部变异,提供了全新的视角。

这是该领域的里程碑式突破。我们首次拥有了一个统一模型,能在各类基因组任务中同时实现长程上下文关联、碱基级精度和最先进的性能表现。

如今,AlphaGenome能够接收长达100万个碱基字母(即碱基对)的DNA序列作为输入,并据此预测用以表征其调控活性的数千种分子特性。

通过比对突变序列与原始序列的预测结果,模型还能量化评估基因变异或突变所带来的影响。

AlphaGenome将一百万个DNA碱基作为输入,并预测不同组织和细胞类型中的多种分子特性

这款模型的预测范围非常广泛,包括了在不同的细胞类型和组织中,基因的起始与终止位点、基因的剪接位置、RNA的生成数量,以及哪些DNA碱基是可访问的、哪些在空间上相互靠近、哪些与特定的蛋白质结合等。

AlphaGenome能够同时做出多方面的预测,得益于其颇具层次的核心架构。

如下图所示,首先通过卷积层初步检测基因组序列中的短模式,再利用Transformer架构在整个序列的任意位置之间高效传递信息。

最后,经由一系列输出层,将识别出的模式转化为对不同调控维度的具体预测。

在训练过程中,针对单个序列的庞大计算量,会被分散到多个互联的张量处理单元(TPU)上协同完成。

模型基于谷歌先前的基因组学模型Enformer构建,并与AlphaMissense模型形成互补——后者专注于分类蛋白质编码区内的变异所造成的影响。

顺便提一句,模型的训练数据源自多个大型公共科研项目,如ENCODE、GTEx、4D Nucleome和FANTOM5。

这些项目通过实验,测量并覆盖了数百种人类及小鼠细胞与组织中基因调控的多种关键维度。

一次100万DNA碱基,瞬间预测

与现有的DNA序列模型相比,AlphaGenome具备几项显著的独特优势:

兼顾长序列与高分辨率

处理长序列对于覆盖远距离的基因调控区至关重要,而碱基级别的分辨率则是捕捉精细生物学细节的关键。

以往的模型不得不在序列长度和分辨率之间做出艰难取舍,这限制了它们能够同时建模和准确预测的生物学维度。

而谷歌的技术突破成功克服了这一限制,且并未显著增加训练所需的资源。

训练一个完整的AlphaGenome模型(未经蒸馏)仅需4小时,算力开销仅为最初训练Enformer模型时的一半。

结果就是,AlphaGenome已经可以实现长达100万个DNA碱基字母的序列的分析,并能以单个碱基的分辨率进行精细预测。

全面的多维度预测

通过解锁对长输入序列的高分辨率预测能力,AlphaGenome得以对迄今最多样化的生物学维度进行预测。

这为科学家们提供了关于基因调控复杂过程的、更全面的信息。

变异效应的高效评估

除了能预测多种分子特性,AlphaGenome还能在短短一秒内,高效评估某个基因变异对所有这些特性的影响。

它通过对比突变序列与原始序列的预测结果,并针对不同维度采用相应的分析方法,来高效地量化这种差异。

创新的剪接点建模

许多罕见的遗传性疾病,如脊髓性肌萎缩症和某些类型的囊性纤维化,病因就可能源于RNA剪接过程的错误——在该过程中,RNA分子的一部分被移除,剩余的两端再重新连接。

值得一提的是,AlphaGenome首次实现了直接从DNA序列出发,预测剪接点,并将其用于变异效应预测。

这为深入理解遗传变异对RNA剪接的后果提供了前所未有的视角。

Jun Cheng是共同一作中唯一的华人

刷新SOTA,覆盖多种生物模态

AlphaGenome在基因学组基准测试中,表现又如何?

无论是在预测DNA分子中哪些部分会在空间上相互靠近,还是在判断某个基因变异是会增强或减弱基因表达,抑或是改变其剪接模式等任务上,这款模型均刷新了SOTA。

AlphaGenome在部分DNA序列及变异效应预测任务上,性能大幅提升。

在生成单个DNA序列的预测时,24项评估中有22项的表现都超越了当前最优的外部模型。

在预测基因变异的调控效应时,26项评估中有24项的表现都达到或超过了顶尖的外部模型。

值得一提的是,上述比较中的外部模型大多是为单一任务专门优化的。

而AlphaGenome是唯一能够同时对所有评估维度进行联合预测的模型,这充分凸显了其强大的通用性。

一个模型,全搞定

要知道,AlphaGenome的创新不仅在于准确性,还在于统一性。

以前,科学家可能需要10多个模型,才能了解一个突变的作用。而现在,一次API调用,还是全分辨率。

科学家仅通过一次API调用,就能同时探究某个基因变异对多种不同调控维度的影响。

这意味着科学家可以更迅速地提出并验证科学假说,无需再为了研究不同维度而调用多个不同的模型。

此外,AlphaGenome的强劲表现表明,它已在基因调控的框架下,学习到了一种相对通用的DNA序列特征表示。这使其成为一个坚实的基础,便于更广泛的科研社区在此之上进行构建和拓展。

而且,AlphaGenome还可以支持特定场景、自己的数据集上,进行适配和微调,从而更有效地解决他们独特的科研难题。

最后,这种统一的方法为,未来提供了一个灵活且可扩展的架构。

通过扩充训练数据,AlphaGenome的能力还可以被进一步扩展,以获得更优的性能、覆盖更多的物种,或纳入额外的生物学维度,从而使模型变得更加全面和强大。

DNA预测,生物学的新曙光

毋庸置疑,AlphaGenome的强大预测能力,将为未来多个科研领域的研究提供助力。

首先,它能加深人类对疾病的理解。

通过更精准地预测基因功能扰动,AlphaGenome能帮助研究人员更精确地定位疾病的潜在根源,并更好地阐释与特定性状相关的变异所造成的功能性影响,从而有望揭示新的治疗靶点。

由此谷歌认为,AlphaGenome将尤其适合用于研究那些可能引发严重后果的罕见变异,例如导致孟德尔遗传病的变异。

其次,AlphaGenome还可以赋能“合成生物学”。

模型的预测结果可用于指导设计具备特定调控功能的合成DNA。例如,设计出仅在神经细胞中激活某个基因,而在肌肉细胞中保持沉默的DNA序列。

最最重要的是,AlphaGenome将会推动未来的生物学基础研究。

通过协助绘制基因组的关键功能元件图谱并阐明其作用,以及识别调控特定细胞功能所必需的核心DNA指令,该模型将加速我们对基因组的理解。

举个例子,在一项针对T细胞急性淋巴细胞白血病(T-ALL)患者的现有研究中,科研人员发现基因组特定位点的突变。

随后在AlphaGenome的加持下,谷歌的研究人员预测这些突变会通过引入一个MYBDNA结合基序,来异常激活邻近的一个名为TAL1的基因。

这一预测结果与已知的致病机制完全吻合,充分展现了AlphaGenome将特定非编码变异与致病基因联系起来的强大能力。

AlphaGenome将是这个领域的一款强大工具。要确定不同非编码变异的重要性极具挑战性,尤其是在大规模研究的背景下。这款工具将补上这块拼图上至关重要的一块,让我们能够建立更清晰的联系,从而更深入地理解癌症等复杂疾病。

每一次失败的疗法,每一次罕见的疾病,每一种复杂性状,都始于被误读的DNA。

如今,人类终于可以看清生命这一系统。

当你能清晰洞见系统全貌时,就能开始重新设计它。生物学也就不再神秘莫测,开始变得的可编程。

这是从“认知”到“掌控”的跃迁。AlphaGenome,正是这个转折点。

标签: 科技
发表评论

最新评论

引用 Weiliang 2025-6-27 06:57
疾病引起DNA变异,DNA变异不一定引起人类已知的疾病。大量数据中间包含着对疾病的误判,有个别的误判,也有系统性的误判。AI只能从已有的DNA数据和病患的病史记录中找到相关性,现代医疗水平就会给AI的判定带来系统误差。相信AI能帮助医疗水平的提高,医疗水平的提高也能帮助AI去除系统误差,提高判定的置信度。
修改DNA来治疗疾病将飞速发展。

查看全部评论(1)

免责声明:本文仅代表作者个人观点,与蒙城华人网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如发现稿件侵权,或作者不愿在蒙城华人网发布文章,请版权拥有者通知蒙城华人网处理。
加美安全机构警告 涉华背景黑客利用后门入侵政府和科企
加美安全机构警告 涉华背景黑客利用后门入
美国和加拿大网络安全机构周四(4日)表示,与中国有关联的黑客使用了一种复杂的恶意
香港大爷23楼火海自救40小时,这方法大家都该学
香港大爷23楼火海自救40小时,这方法大家都
高层起火后,到底该往上跑、往下跑,还是原地等救援?很多人一慌就乱了阵脚,反而把自
多伦多大学蝉联加拿大研究型大学榜首! 第二名你绝对想不到! ...
多伦多大学蝉联加拿大研究型大学榜首! 第二
多伦多大学(University of Toronto,简称 U of T)的喜讯接连不断。除了是加拿大顶尖
加拿大牙科福利再升级!政府再砸3500万补贴
加拿大牙科福利再升级!政府再砸3500万补贴
加拿大联邦卫生部公布最新进展显示,全国已有接近600万居民纳入“加拿大牙科护理计划
谈判破裂后 魁省身患乳癌的医生失去了自己的家庭医生
谈判破裂后 魁省身患乳癌的医生失去了自己
在看到医生联合会与魁省政府谈判破裂的新闻几分钟后,Dr. Cynthia Lauriault 得知自己
魁省政府和医生联合会谈崩了
魁省政府和医生联合会谈崩了
魁省医生联合会表示,与魁省政府就改善薪酬体系改革的谈判已经告一段落。加拿大新闻社
特鲁多带新女友出席外交场合 网络炸锅了
特鲁多带新女友出席外交场合 网络炸锅了
加拿大前总理特鲁多(Justin Trudeau)与 美国歌星Katy Perry 的关系近日再次引发网络
卡尼周五将会见特朗普
卡尼周五将会见特朗普
总理卡尼和美国总统特朗普将于周五在国际足联抽签活动上简短会晤。两人的会面,将是自
5类人请立刻停止热水泡脚
5类人请立刻停止热水泡脚
泡脚,被很多人认为是“最便宜”的养生方法。冬天的夜晚泡个脚,既能暖身,还能促进睡
Cineplex家庭影院开播 电影票只要3.99元
Cineplex家庭影院开播 电影
蒙特利尔Cineplex每周六早上11点的家庭影院又开始了,
魁省五百元优惠机票可以去哪儿玩?
魁省五百元优惠机票可以去哪
2022年6月1日起,魁省政府推出了“空中准入地区计划”
蒙特利尔郊外新开一家北美最大的蹦床公园
蒙特利尔郊外新开一家北美最
魁北克省 Mont-Saint-Grégoire 山脚下新开了一家北美
魁省迎来北美第一家全包型滑雪度假村 现在只要160元
魁省迎来北美第一家全包型滑
近日,全球知名的法国度假连锁集团Club Med宣布位于魁
刺激!飞跃安魁两省边界!400米长滑索开放!
刺激!飞跃安魁两省边界!40
安省和相邻省的边界已正式开放!肯定会有很多小伙伴驾

Copyright © 1999 - 2025 by Sinoquebec Media Inc. All Rights Reserved 未经许可不得摘抄  |  GMT-5, 2025-12-5 05:01 , Processed in 0.141247 second(s), 23 queries .