13 案例系列2:学科融合
13.1 ParaFold:AlphaFold的高效并行集群版
13.1.1 案例背景
蛋白结构的高精度预测为生命科学和医学研究开启了新的视野,具有重塑生命科学研究范式的潜力。AlphaFold, 基于深度神经网络技术,已经凭借其前所未有的准确性解决了长达半个世纪的生物学挑战。为了进一步提高其效能,上海交通大学率先对AlphaFold在高性能计算平台上进行了优化,推出了并行集群版的ParaFold。这不仅大大提高了计算速度,也更为经济和用户友好,支持蛋白结构的大规模高通量计算,并最大化地利用了高性能集群的CPU和GPU效率。
13.1.2 工作与成效
由上海交通大学网络信息中心自主研发的ParaFold(见图13.1),是蛋白结构预测软件AlphaFold的高效并行集群版本。
ParaFold的优化策略涵盖了三个关键领域:CPU与GPU的独立流程、CPU的并行优化以及GPU JAX的优化[1]。经过这些优化,AlphaFold能够实现大规模高通量的计算。在集群CPU节点上,它能同时处理成千上万的蛋白,完成最为耗时的MSA多序列比对任务,随后将推理任务集中到GPU进行批量计算。这种策略大大提高了单块GPU的蛋白结构预测效率,每块GPU每天的处理能力增长了高达41倍。
多所世界知名大学,如牛津大学、康奈尔大学、斯坦福大学、匹兹堡大学、得克萨斯农工大学、瑞士洛桑大学和西湖大学等,都已部署或推荐使用ParaFold。在上海交通大学,ParaFold已服务于131个生物学和医学课题组,成功完成了约16万个蛋白的结构预测,助力发表了20余篇高质量研究论文,涵盖了深海古菌代谢特征、原核蛋白DNA切割活性和人类基因组结构变异等领域的研究。

图13.1: ParaFold
13.2 支持上海交大深部生命国际研究中心团队揭示深古菌与早期地球协同演化历史
13.2.1 案例背景
深古菌(Bathyarchaeia)是现代地球上丰度最高的微生物类群之一,推测在地球元素循环过程中发挥着重要功能。然而由于难以培养等问题,目前对于深古菌的系统分类仍然较为混乱,对其生态地理分布、代谢功能、起源和演化历史尚缺乏系统研究。通过计算能深入分析深古菌的系统分类、代谢特征和演化历史,修订更新现有的深古菌物种分类体系,探究不同深古菌类群的生态地理分布和代谢潜能的差异。
团队构建迄今为止最为全面的深古菌基因组数据集,修订并更新了现有的深古菌物种分类系统,将深古菌分为8个目水平分类单元,并分别以中国传统经典神话人物形象对其命名(如图13.2)所示,8个深古菌目分别命名为毕方目、金乌目、玄武目、妈祖目、后土目、无支祁目、朱雀目和白泽目)。
基于该新提出的物种分类系统,通过宏基因组学、宏蛋白组以及多种聚类算法等深入分析了深古菌在不同现代地球环境的生态地理分布,发现除海洋沉积物以外,现代陆地和地热(热泉和热液)生态系统中也同样栖息着多样的深古菌物种,且不同深古菌类群具有明显的物种特异性环境分布特征。通过进一步的代谢组学分析表明部分深古菌类群很可能在深部生物圈的一碳化合物循环和黑暗碳固定过程中扮演着之前被忽视的重要角色。

图13.2: 深古菌分类
13.2.2 工作与成效
宏基因组分析对于算力和读写的要求极高,交我算团队协助深部生命国际研究中心团队经过多项组装软件编译优化,横向对比性能测试以及结果评估后开展高通量宏基因组分析计算。 在国际权威期刊Science Advances 杂志上发表了题为 “Taxonomic and carbon metabolic diversification of Bathyarchaeia during its coevolution history with the early Earth surface environment” 的研究论文。本研究在地质历史时间尺度对深古菌在全球碳循环过程中的生态效应进行了拓展,使我们认识到微生物在早期地球表层环境改造以及宜居性的提升中发挥着至关重要的作用,为今后更加深入地探究微生物与地球系统之间的协同演化以及早期生命起源提供了新的思路和方向。
13.3 与上海交大医学院附属九院沈键锋团队合作揭示异常剪切体蛋白结构
13.3.1 案例背景
葡萄膜黑色素瘤(Uveal Melanoma,UM)是成人最常见的眼内恶性原发性肿瘤,其恶性程度高,严重威胁患者生命。特定的可变剪切异构体与包括葡萄膜黑色素瘤在内的多种肿瘤发生有关。混合测序策略是以三代测序数据作为基础和重点,将三代测序长读段与高质量二代测序短读段数据结合在一起,充分利用两个技术平台的优势,是目前全局精准检测可变剪切事件的高效办法之一。尽管在研究不同异构体的选择性剪切机制和功能方面付出了巨大努力,但我们对剪切异构体3D结构的了解仍非常有限,因此需要全面系统研究其3D结构从而探索其生物学功能。AlphaFold是一种深度学习算法,在预测氨基酸序列的3D蛋白质结构上获得了很高的准确度。这项重大进展对蛋白质功能的研究产生了深远的影响。
13.3.2 工作与成效
在此项工作中,研究人员建立混合测序分析平台,基于18 名葡萄膜黑色素瘤患者肿瘤组织的二代及三代转录组测序数据,分别利用pinfish及flair分析流程重建转录异构体,共得到了315个未经注释的高频(出现于10个样本及以上)可变剪切异构体(图13.3)。为了更好地了解异构体的结构差异及其潜在影响,研究人员比较了295个剪切异构体编码的异常蛋白与其基因编码的正常蛋白之间的结构差异。此外,研究人员还在10种氨基酸序列发生改变的剪切异构体中鉴定出了13个潜在新抗原。该项研究是混合测序策略在识别葡萄膜黑色素瘤转录异构体及鉴定其可变剪切事件上的首次应用。同时,这也是首次使用AlphaFold系统全面预测葡萄膜黑色素瘤中可变剪切异构体的3D结构。这项研究也为基于蛋白质结构预测新抗原和潜在药物新靶点提供了理论依据。

图13.3: 研究技术路线
双方团队合作于Nature子刊Scientific Data上发表了题为“Structure prediction of novel isoforms from uveal melanoma by AlphaFold”的研究论文(图13.4),首次全面系统地预测了葡萄膜黑色素瘤中高频异常剪切异构体的蛋白结构,为后续识别癌症新抗原及潜在治疗新靶点等多种类型的研究奠定了基础。

图13.4: 合作发表论文
13.4 携手交大医学院附属仁济医院的胆胰外科通过生物信息学对胆道肿瘤转化研究
13.4.1 案例背景
胆道肿瘤是一类发生在胆管系统内的罕见恶性肿瘤,虽然胆道肿瘤与我们的日常生活紧密相关,但其研究相对较少。胆道肿瘤通常具有高度侵袭性,可在早期没有明显症状的情况下发展,使得大多数患者在诊断时已经处于晚期,增加了治疗的难度。同时胆道肿瘤的一个主要特点是其倾向于迅速转移到远处的器官,这使得肿瘤的治疗变得更加复杂。胆道肿瘤的治疗通常包括手术切除、化疗、放疗和靶向治疗。然而这些治疗的有效性有限,尤其是在晚期病例中。
转化医学正努力通过科学研究和计算将实验室的发现迅速应用到临床,特别是在药物和治疗方法的转化上。生物信息学通过计算机和大数据分析为胆道肿瘤的研究提供了强大的工具。从基因组学到转录组学,与网络信息中心交我算团队的紧密合作使得对胆道肿瘤的深入研究成为可能。
在临床实践中,我们经常面对一种情况:胆囊结石或胆囊炎手术后,最初的检查未能发现癌症病灶。术后病理检查却揭示出患者确实患有胆囊癌,通常至少在开刀后的7天后才能得出结果,这种情况对于患者来说极为痛苦,需要进行第二次手术。但如果我们能够在术前通过筛查方法对患者进行早期诊断,或者识别他们的癌症风险因素并进行有效管理,那么患者将获得宝贵的警示机会。
13.4.2 工作与成效
“交我算”团队支持仁济胆胰外科团队,通过汇总10000X高深度ctDNA测序数据和流行病学数据,以及使用多种机器学习算法复合的方法构建出GBCseeker诊断模型工具(图13.5),在计算模型的构建中使用了大量算力用于处理高通量测序数据和模型训练工作以不断提高模型精度,平均诊断准确率达到86%。该工具有望进行胆囊癌的早期筛查和预检辅助。
在未来的几年内,我们拟继续提高样本量,将数据扩大到1000多例,这将使我们能够更准确地评估和提高诊断的准确性。计算模型为胆囊癌的早期发现提供了宝贵的参考,有望改善患者的治疗结果并减少患者的痛苦,预测模型发挥着巨大的作用。

图13.5: 模型构建