我的位置: 上观号 > 上海科技 > 文章详情

从摇瓶子到挖数据,化学“智变”进行时| 浦江创新论坛

转自:上海科技 2025-09-24 19:27:56

从运算4个水分子在高达30维度空间中相互化学作用的精准人工智能(AI)模型,到能够预测不同化学反应的通用AI模型;从基于蛋白质序列的药物新靶点预测,到利用描述符来预测和改善化学反应过程的效率;从能够精准辅助科研人员在某个特定研究领域开展工作的化学AI智能体,到具备感知能力而实现数据增量的化学具身智能……

在2025浦江创新论坛之未来化学论坛上,每一位演讲者都毫无例外地谈论着化学与人工智能融合带来的巨大改变。这种改变不仅发生在化学理论研究范式、化学实验与应用领域,还发生在化学研究的工具和手段上。

更令人意想不到的是,化学家们对于AI在化学研究中出现的幻觉抱着乐观的态度,在他们看来,这种AI的“不可靠”或许能为颠覆式创新带来出乎意料的启示。

加速理论研究

精准模型与通用模型齐飞

“对于人类来说必须且常见的水,其实是一种非常反常的物质。比如,4℃时的液态水的密度要大于水的固态——冰,这与其他物质有截然不同。”中国科学院院士、中国科学院大连化学物理研究所研究员张东辉语出惊人,“科学家们已经罗列出水的70多条反常特性,甚至有人提出,正是因为水的反常才孕育了地球的生命。”

从水分子在微观尺度的相互作用来寻觅水反常背后的奥秘,是张东辉一直以来努力的方向。然而,仅仅两个水分子之间就有12个自由度,即12维空间,要设计一个能描述这种状态的函数显然是非常困难的。如果把水分子的数量从2个增加到4个,就构成了30维空间,根本无法用函数来精准表达。此时,计算模拟成为探究水分子微观结构的有效手段。

从2013年开始,张东辉团队尝试用基本不变神经网络方法(FI-NN)构建体相水势能面。和已有的多体展开水分子机器学习力场相比,他们开发的FI-NN势能面拟合的精度更精确、覆盖的范围更大,并且首次实现了完全基于高精度从头算势能面的体相水结构模拟。“我们用1万个CPU运算了400天,计算出400多万个水势能面相互作用的点。”张东辉说,“我们的精度比过去提高了一个数量级。对于水密度变化的理论计算结果,在加入了量子效应后,与实验结果有了非常好的重合。”接下来,团队计划用模型计算更多液体分子的相互作用,“比如,我们想知道为什么白酒在52°时味道最好,就来看看乙醇分子与其他分子之间是如何相互作用的;人的生理盐水中氯化钠又是如何与水分子相互作用的”,这需要模型完成天文数字的计算。

与需要进行庞大运算、专精于一个研究方向的FI-NN模型不同,复旦大学教授刘智攀致力于构建一种通用全局势函数模型,并基于该模型开发了大规模机器学习原子模拟(LASP)AI平台,用来预测结构和反应途径。“通过LASP平台,化学家们可以快速筛选势能面,取得较好的样本后,再去做实验,避免了因为势能面过高而注定会失败的合成。”刘智攀现场演示了该平台的操作介面:只需要输入化学名称或是分子式,平台能在10-20秒里呈现出一张三维结构图。刘智攀认为,模型在未来甚至有望跳过势函数的步骤,直接从材料设计和反应设计开始研究,从而大大加速领域的发现和发展。

减少重复实验

从“摇瓶子”到“挖数据”

“AI加速了新药研发,但也使得现有赛道更加拥挤。”中国科学院上海药物研究所研究员郑明月说,在新靶点发现上,AI还没有带来显著的变化,而对于研发已知靶点的新药则展现出强大的能力。《2022AI药物研发白皮书》显示,AI将药物筛选时间从5年缩短到3年,使得新药临床成功率从12%提升到14%。

此前,基于蛋白质结构的药物设计(SBDD)一直是创新药物发现的主流方法,但需要完成建立蛋白质的三维(3D)结构、识别潜在的配体结合位点、通过虚拟筛选或全新设计发现活性化合物等多个复杂步骤。郑明月提出了基于蛋白质序列信息预测药物-靶标作用的TransformerCPI模型,直接从蛋白质序列出发进行药物设计发现,无需经过SBDD的复杂流程。在质子泵抑制剂的抗肿瘤作用靶标研究中,TransformerCPI模型的预测结果得到了实验验证结果的支持。

“过去,我们为了找到一个让化学反应条件更温和、化学反应效率更高的催化剂,需要一个个试错。”中国科学院院士、复旦大学教授麻生明用“摇瓶子”来形象地说明这个过程,“运气好,能摇出来;运气不好,摇不出来,就只能先放一放。”即使“摇”到了一个合适的化合物,接下来还需要一个个去认真研究其性能。这种实验模型,需要花费导师和学生大量的时间,进行大量重复工作。

随着AI时代的到来,麻生明团队的实验方式已经从“摇瓶子”变成了“挖数据”,“我们从大量的实验中收集足够的数据,并通过描述符来预测实验结果。”在仅有476条数据集的条件下,麻生明团队的模型回归系数(R2)达到了0.6,在加入更多描述符并进行权重评估后,模型的预测精准度有望一步提升。

探索研究新范式

AI智能体+具身智能

日本东北大学教授李昊的AI电催化实验室,分为前、中、后三端。在前端,由实验数据和理论结构数据组成的数据库,由机器学习预测模型、大语言模型、物理模型组成的模型组,实现了AI+数据科学驱动的化合物设计;中端是由高性能催化剂和机械臂实现自动合成;后端依托同步辐射中心等科学设施进行电催化测试和结构表征。

聚焦于人工智能与材料设计的交叉领域,李昊认为,数据底座+AI模型+“预测-验证-反馈”闭环创新,是“数字材料”的真正底色,有望让材料科学摆脱传统试错,加速取得新突破。而高精度的AI智能体,可以辅助材料科学家们更高效地工作。然而,要培育“数字材料”的AI智能体,需要足够庞大的真实实验室数据。

厦门大学教授洪文晶提出,可以把具身智能应用于分子科学。“数据增长速度无法支撑大模型的扩展,具身智能可以让AI从存量数据挖掘迈向新增数据之路。”洪文晶将自动驾驶与具身分子科学智能进行比较,“前者的感知层是激光雷达、摄像头,通过学习层的路径预测、行为预测等,在交互层实现方向、油门、刹车等控制;后者的感知层则是核磁、红外等表征,通过学习层的推理模型、原子模型,在交互层实现机器人实验、自动化高通量制备。”

“AI幻觉或许会为科研带来新的思路”

“在化学研究中,有两个方面,我们以为AI能做,实际上却表现很糟糕。”李昊说,“一是阅读材料科学文献并综合提取关键数据,大模型的准确率至今不到10%;二是回答材料科学问题,并提出新观点,AI幻觉率高达94%。”这意味着在化学、材料学研究中,AI并非无所不能。然而,李昊表示,AI幻觉或许会为科研带来新的思路。

对此,洪文晶表达了赞同:“AI幻觉并不可怕,科研反而要去探究小概率事件,并从小概率事件的搜索中提出新想法。”他以聚焦小概率事件的智能聚类算法应用为例,“我们结合该算法分析甲酸脱氢酶酶催化反应循环,发现了小概率(4.58%)事件中包括了酶催化循环的全过程。结合理论计算,我们提出了辅酶分子间通过氢负离子原位传递完成反应循环的可能机理,由此实现了有别于经典机制的创新发现。”

“未来的化学研究模式将是数据、科研人员、AI和自动实验装置的结合。”麻生明对此充满期待。

“上海科技”出品,转载请注明来源

企业及专家观点不代表官方立场

作者:耿挺

↓分享

↓点赞

↓在看