高毅勤(昌平实验室领衔科学家,北京大学教授、理学部副主任)发表主题演讲
演讲主题:人工智能分子模型
4月7日,由北京市昌平区人民政府、央视网主办,国家卫健委人才交流服务中心等协办的2023全民数字健康大会,在北京市昌平区顺利举行。大会以“数字中国 健康时代”为主题,并邀请近400位政府领导、行业协会代表、学界专家、企业代表、媒体代表出席。在主旨演讲环节,昌平实验室领衔科学家、北京大学教授、理学部副主任高毅勤就生物分子人工智能模型课题展开演讲。
高毅勤介绍,随着计算机技术的飞速发展,人工智能越来越多地应用于生物医药研发的各个方面,从分子到细胞等生物物理领域都可以运用计算机进行模拟,其中较为重要的是对药物分子的筛选和设计。由于筛查和设计分子具体与哪些蛋白相互作用所牵涉到的分子种类很多,相互作用的种类也较为繁杂,需要对整个过程进行计算,这就要求计算结果足够快速和准确,所以人工智能技术将发挥出越来越大的作用。
“理解生命过程特别是整个细胞命运包括转入调控,实际上绕不开DNA在细胞核内形成染色质的结构。”高毅勤在对比目前普遍应用的癌症治疗方法后发现,癌症是系统性疾病,要从系统的角度理解这一问题。但DNA在每个细胞内的长度为2米,是一个非常复杂的结构,用实验方法获得比较困难,且数据很难被直接利用于疾病的诊断。所以,将人工智能和物理模型结合起来,对数据进行新的清洗,把噪音降下来,同时对丢失的信号进行补充,有利于重构这条长长的链形成的三维结构,并在此基础上对不同的病人进行对比。
在演讲中,高毅勤对比了一组结直肠癌细胞内染色体的三维结构。它们虽然来自不同的病人,却高度相似,癌旁结构也较为接近。从癌到癌旁,或是从癌旁到癌,可以明显看到三维结构的变化,以此来理解癌症的发生。
高毅勤表示,实验证明癌细胞内的蛋白错误相互作用比正常细胞内的相互作用更多,利用人工智能可以快速搜寻出癌细胞内哪些蛋白出现了不该出现的相互作用,再依据蛋白序列进行成药。从多维组学角度出发,从染色质结构到表观遗传组学,利用人工智能的快速实验方法都可以高效率、大批量、高通量地产生出进行干预的靶点。
目前,在人工智能的加持下,多个国家已经开展了依据蛋白结构进行成药的研究。高毅勤介绍,华为团队在2019年就已经开始构建国内面向函数深度的框架,来解决蛋白结构预测的相关问题。截至目前,我国已经拥有从头写出代码、从头训练得到的完全独立于谷歌之外的数据,可以深度学习模型进行蛋白结构预测。它不只是一个深度学习模型,也是国内首个完全自主产权的分子动力学模拟软件,可以进行各项搜索,也可以进行高精度结合自由能力计算。在这个框架下,不仅可以用扩散生成模型来产生想要的蛋白序列,也可以产生想要的小分子化学结构,所以它也是一个可以寻找新的药物骨架的模型。
“实际上,我们的确可以利用人工智能或是科学计算融合来加速我们对靶点的寻找,和对药物的设计。”在高毅勤看来,要真正实现药物的研发和生产,还需要很多其他因素发生作用,对药物的物理化学属性的具体理解还要回到量子力学范畴。他将继续致力于搭建更完整的模型,把基于量子模型的计算和分子动力学真正充分融合在一起,同时将来自医疗的数据用深度学习模型搭建起来,建设一个真正多模态、多尺度的虚拟细胞模型,并在具体过程中不断对其进行校正、优化,最终完成实验与人工智能模型的融合。这一结果也有助于在给予药物分子的过程中,可以更清楚地掌握该分子对细胞将会产生怎样的影响,更好地发挥相应药效,同时避免错误地与其他蛋白相互作用带来不必要的毒性。