AI如何赋能生命科学:用“万能函数”表征生命
·要让AI在这个问题上有“用武之地”,还需要科学家在数据、算法等方面做大量的调整和创新工作。
生命是宇宙中最精妙复杂的系统。从一个细胞分裂增殖到37万亿细胞协同构建成一个完整的人体,其背后蕴藏的信息与规律浩如烟海。面对指数级增长的生物大数据和高度动态与非线性的生命过程,人工智能(AI)技术有望帮助科学家探寻其中的规律。
7月28日,在上海举行的世界人工智能大会(WAIC)“AI赋能生命科学论坛”上,来自中国科学院等机构的多名顶尖学者齐聚一堂,共同探讨了如何利用人工智能(AI)这一强大引擎,将离散、高维的生物数据转化为可理解、可预测、甚至可调控的生命模型。
用AI“万能函数”绘制生命地图
对自然世界进行数理建模往往要求科学家首先理解系统背后的物理或化学原理,再用微分方程等工具进行描述。以神经网络算法为基础的AI模型则提供了另一种表征自然的方式:它不预设具体的规律,而是通过学习海量数据,自动发现其中隐藏的高维、非线性关联。中国科学院分子细胞科学卓越创新中心研究员、上海交通大学讲席教授陈洛南将其形容为一个“万能函数”。
生命科学的一个首要问题是构建静态表征,即为复杂的生命系统在特定时刻拍摄一张超高分辨率的“快照”,揭示基因如何调控、蛋白质如何相互作用、细胞如何互动等等过程。要让AI在这个问题上有“用武之地”,还需要科学家在数据、算法等方面做大量的调整和创新工作。
“所有的AI for life science(AI赋能生命科学),基石就是大数据。” 中国科学院院士李劲松说。大数据并不仅仅意味着“多”,统一标准、高质量的数据才是AI模型能够“洞察真相”的前提。
生命科学的核心遵循着一个“中心法则”:DNA储存遗传蓝图,通过转录形成信使RNA,再由RNA指导蛋白质的合成。蛋白质作为生命活动最主要的功能执行者,其种类、数量、位置和相互作用,决定了细胞的命运乃至整个机体的健康与疾病。李劲松院士团队提出的“基因组标签计划”(GTP),通过“类精子干细胞”技术,为小鼠所有2万多个编码蛋白质的基因逐一打上“标签”,用一个统一的框架来追踪动物实验中蛋白质发生的变化。
“未来所有这些蛋白质的研究,就可以用一个抗体的标准化研究体系来搞定,”李劲松将其比喻为生命科学研究的“北斗导航系统”。在这个系统中,每一个蛋白质都被精准“定位”,为后续所有AI分析提供了前所未有的标准化高质量数据基础。
有了标准化的数据,AI便能大显身手,绘制出更精细的“地图”。中国科学院动物研究所的李鑫研究员展示了如何构建“AI虚拟细胞”。他们将海量单细胞数据“喂”给AI,让模型学习细胞的“语言”。“我们把每个细胞的基因表达当成一篇文章,通过自回归的遮蔽训练去完成建模,”李鑫解释道。这好比让AI阅读了数百万篇描述细胞状态的“文章”后,学会了精准表征每一个细胞的状态。
AI能从人类难以理解的信息中“看”出规律。西安交通大学教授叶凯提出一种AI数据分析策略,将一维的基因组序列信息“升维”成二维的图像,使得原本适用于图像识别的强大AI算法(如卷积神经网络)可以直接用于分析基因组,从而在复杂的基因组结构变异检测中,捕捉到传统方法难以发现的模式。
由静到动
生命并非静止的图景,而是一部时刻演进的电影。如何从一张张“快照”中,解读出生命过程的动态规律,是AI赋能生命科学的另一个突破点。然而,AI模型虽然“万能”,虽然能输出正确的结果,但其内部复杂的参数也使其成为难以解读的“黑箱”。
要通过AI模型理解生命,就需要将它从“黑箱子变成一个白箱子”。为此,陈洛南团队提出了“时空信息转换”(STI)理论。该理论从数学上证明,一个高维度的空间状态(静态快照)可以在特定条件下映射为一个低维度的时间序列(动态电影)。这意味着,AI无需看到整个过程,仅通过分析高质量的静态数据,就有可能推演出其背后的动态演化规律。
不同于DNA,目前RNA的结构跟功能的真实测量数据还比较缺乏。深势科技研发负责人、北京科学智能研究院研究员温翰介绍了在相关理论的基础上构建的通用RNA预训练模型,通过AI模型加入“先验”知识结构和算法创新,不仅提高了在少量训练数据基础上预测RNA结构的准确性,更能模拟其在细胞内的动态行为,如调控翻译效率和稳定性。
中国科学技术大学教授刘海燕也指出,蛋白质的功能源于其动态变化。AlphaFold解决了蛋白质的静态“折叠”问题,但要设计出真正有功能的“分子机器”,就必须理解其动态过程。他的团队正致力于通过AI模型,预测蛋白质的动态学特性,甚至设计出能在不同状态间切换的复杂功能蛋白。
导航生命,干预疾病
如果AI能够理解并预测生命的“动态电影”,那么终极目标便是成为一名“导演”,对生命过程进行智能导航与干预。
陈洛南认为,疾病的发生并非一蹴而就,而是从正常状态,经过一个难以察觉的“临界态”,最终才滑向不可逆的疾病状态。他的团队开发了能够根据患者健康数据识别出这个“临界点”的AI模型,实现“治未病”的精准导航。
浙江省肿瘤医院的程向东分享了其团队利用AI进行胃癌早筛的成果。他们训练AI模型通过解读腹部CT平扫图像来发现早期胃癌。他们的模型能将需要做胃镜检查的高危人群从25%浓缩到6.2%,极大地提升了早期诊断的效率。
AI的“导航”能力不仅体现在“避开悬崖”,更体现在“开辟新路”。中国科学院微生物研究所研究员王军介绍了利用AI语言模型在浩瀚的微生物基因组中挖掘具有特定功能的“功能多肽”的研究成果。他的团队甚至能“无中生有”,设计出自然界不存在、但能让工业菌株生长速度提升30%的全新多肽。这如同为生命系统编写了新的“程序代码”,主动引导其走向我们期望的方向。
多名学者提到,AI不仅正在加速知识的发现,更在创造全新的研究范式,但它在生命科学中的应用仍面对多重挑战。首先是数据鸿沟,李劲松指出,高质量、标准化的数据仍是稀缺资源。其次是可解释性瓶颈,AI的“黑箱”本质意味着学者仍需关注科学研究的可解释性。最后是从虚拟到现实的鸿沟。刘海燕指出,AI设计的分子或细胞能否在真实世界中稳定存在并发挥作用,仍需大量的实验验证。
澎湃新闻记者 季敬杰
(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)
要做生命科学的“数据生产力平台”,上海这一“国之重器”交出十年成绩单


时光倒退,2015年7月28日,全球首个生命科学领域综合性大科学装置——国家蛋白质科学研究(上海)设施开放运行。
十年来,该装置用户覆盖全国33个省级行政区,服务国内外2500余个课题组10万余人次,发表高水平研究论文4000余篇,中国一半的蛋白质结构研究出自这里。
“如果说过去十年蛋白质设施1.0版像一家‘综合型三甲医院’,为生命科学研究提供技术服务。未来,蛋白质设施2.0版将致力于成为生命科学的‘数据生产力平台’,实现生命科学数据的产生、保存和利用。”上周末,蛋白质设施主任吴家睿,在中国科学院上海高等研究院主办的“国家蛋白质科学研究(上海)设施开放十周年学术论坛”上说。

国家蛋白质科学研究(上海)设施开放十周年学术论坛
推动有国际影响力的科研成果产出
蛋白质设施隶属于中国科学院上海高等研究院,坐落在上海张江,现有九大技术系统,建立了从蛋白质样品制备、结构解析到功能研究的完整技术体系。
时间回到2006年,当时国际科学界已经测定的蛋白质结构超过37000种,而由我国科学家测定的蛋白质结构仅占其中的0.5%——背后的主要原因,是我国蛋白质科学研究的基础条件与国际先进水平仍有明显差距,仅以高场核磁谱仪为例,当时只有北京大学的1台800兆赫兹谱仪和香港科技大学的1台750兆赫兹谱仪。
蛋白质设施正是在这一背景下应运而生。2010年12月26日,蛋白质设施开工建设;2015年7月28日,通过国家验收正式开放运行。
新民晚报记者了解到,开放十年来,设施支撑完成科研课题超13400项,在原子空间尺度与毫秒时间尺度上深入解析蛋白质、核酸等关键生物大分子的结构与功能机制,在疾病机理解析、创新药物研发、合成生物设计等前沿应用领域取得了一系列重大研究成果,推动了多项原创性科研成果落地转化。
“蛋白质设施推动我国重大传染病防控领域取得若干重大原创成果,推动我国免疫治疗科学研究取得系列重大突破,推动我国植物学与农业应用基础研究取得多点突破,赋能我国蛋白质设计与合成生物学发展……”吴家睿如数家珍。
在世界蛋白质结构数据库版图点亮中国坐标
作为蛋白质科学研究“国之重器”,蛋白质设施始终致力于推动“利器”的升级与自主创新。
着眼于生命科学的长远发展,蛋白质设施与上海科技大学iHuman研究所、免疫化学研究所联合建设“中国蛋白质结构数据库”(PDBc),并于2022年正式加入国际蛋白质结构数据库组织,成为全球第四个国家和地区成员,在世界蛋白质结构数据库的版图上点亮了中国地标。目前中国蛋白质结构数据库注释审校的数据条目已覆盖我国本土投递蛋白质结构数据总量的95%。我国本土的蛋白质结构研究结果已经基本实现完全自主审校,并保持与国际数据库互联共享。
除了自主创新,蛋白质设施也以开放的姿态加强国际合作,比如,与美国赛默飞公司达成战略合作“蛋白质动态分析联合实验室”,共同提升冷冻电镜研究、蛋白质组学研究、临床样本队列研究和生物医药领域产业的发展;与德国布鲁克公司合作共建“生物核磁技术开发与用户服务中心”,在设备升级、技术创新、产品展示、用户培训和学术交流等方面开展深入合作。
蛋白质设施开放运行初期,将重点用户锚定为科研院所和高校,如今产业用户达到100余家。2024年产业用户机时为1670小时,并呈逐年增加趋势。 就在不久前,“产业”和“临床研究”用户分委员,被扩充到了蛋白质设施原有的用户科技委员会。
加速传统实验技术与AI深度融合
面向人工智能时代的深度演进,科学研究正步入以数据驱动和模型预测为特征的“AI for Science”新时代。
“AI不仅成为工具,更正逐步演变为科学问题解决的核心驱动力。”吴家睿说,“蛋白质设施正全面加速传统实验技术与AI技术的深度融合,以智能化、自动化、体系化的技术升级路径,推动核心实验平台向更高通量、更高维度、更强融合的方向演进。”
据介绍,近期,蛋白质设施与上海思朗万维计算技术有限公司共建“高性能蛋白质动态计算中心”,引入国产自主可控的高性能分子动力学模拟计算平台,通过“AI建模+实验验证+动态结构还原”的融合式研究支撑蛋白质动态机制解析、活性构象识别、靶点结构变构预测等复杂任务,为新药发现与功能蛋白设计奠定数据基础。
而在合成生物学这一“AI+生物”最活跃的领域,蛋白质设施也正在积极布局智能蛋白质设计与制造平台 。设施将对PDBc数据库与计算框架进行升级,并携手康码(上海)生物科技有限公司,联合打造全球首个高通量的“DNA-to-Protein蛋白质体外无细胞合成”智能制造装置。
下一个十年,蛋白质设施已然在路上了。
原标题:《要做生命科学的“数据生产力平台”,上海这一“国之重器”交出十年成绩单》
栏目编辑:陆梓华 图片来源:采访对象供图
来源:作者:新民晚报 郜阳 实习生 朱其乐
相关问答
上海大学生命科学学院怎么样?设有哪些专业?申请方
[回答]~接下来我为大家简单介绍一下我们上海大学的生命科学学院开设的专业以及研究情况学院简介:上海大学生命科学学院的前身是由中国科学院王应睐、沈昭...
上海科技大学生命学院研究生怎样?
很好。毕业取得硕士学位证书后。基本都有令人满意的去向。有去求职就业,也有进比较合适的公司研发部。也有继续深造读博士,然后继续科研事业。很多时候对生物...
生命科学专业读研去哪些学校比较好?申请方
这个跟具体你想研究的方向有关,不同的学校有不同的优势学科,生命科学是个比较大的类,包括分子生物学、生物信息学、基因组学、计算生物学等非常多的...
中科院上海生命科学学院学生毕业后大都干什么工作?
很多时候对生物学而言,这一个博士学位是不够的,你还需要很多积累。也是运气好一些的,可能可以进入比较理想的大学或者科研机构。还有部分可能去考公务员之类的...
中科院生命科学研究生就业前景?
中科院生命科学研究生就业在珠海这样的沿海前景很好。我有一个学生是中科院生命科学的研究生,毕业后到珠海水生物科研所当研究员,现在已工作了五年多,已经评为...
根据2024年QS的排名,意大利有哪些比较好的生命科学类学校...
[回答]在2024年QS生命科学专业排名中,意大利排在前700名的院校有:排名院校名称所在城市108帕多瓦大学意大利110罗马第一大学意大利116米兰大学意大利151...
同济大学生命科学与技术学院怎么样?设有哪些专业?申请方
学院还是很不错的。我是生物技术专业的,可以给你介绍一下我们专业。生物技术是以现代生命科学为基础的,采用先进的技术,是如今很具有潜力并且非常活...
上海透景生命科技有限公司怎么样?
透景是一家非常好的研发型公司,老板技术出身,很nice。因为技术领先,产品毛利很高,近几年成长非常快。和透景合作多年,看着这家企业成长起来,人员流动并不高...
中科院上海生命科学博士研究生能分到复旦大学等高校吗?侍偶如何?
现在都是自己找工作,没有分配之说。想进复旦,必须有高质量的论文。本科至少是211高校毕业。如果在Nature、Science、Cell等这些顶级期刊上有论文,直接就...
2021年上海高一生命科学合格考查分时间?
至1月17日,2021年1月上海市普通高中学业水平合格性考试全部顺利结束。根据日程安排,上海市教育考试院将于2月3日(星期三)在“上海招考热线”网站(www.shmeea...