PNAS丨国科大杭高院陈洛南工作室与晨伫生物科技通过整合蛋白质语言模型与结构特征挖掘赖氨酸翻译后修饰位点
马年吉祥 · 热烈祝贺
国科大杭州高等研究院/上海交通大学陈洛南团队与晨伫科技合作,在PNAS杂志发表最新研究成果。
近日,国科大杭州高等研究院/上海交通大学陈洛南团队与晨伫科技合作,在PNAS杂志在线发表了题为“Mining Lysine Post-Translational Modification Site by Integrating Protein Language Model Representations with Structural Context”的研究论文。该研究提出了一种融合蛋白质语言模型与原子级结构特征的深度学习框架,实现了对多种赖氨酸翻译后修饰(PTM)位点的精准预测,并通过分子动力学模拟验证了其功能影响,为PTM相关机制研究和药物靶点开发提供了新思路。国科大杭高院罗梦奇博士、晨伫科技朱晓红博士为共同第一作者;国科大杭高院/上海交通大学陈洛南博士、南加大/晨伫科技Warshel博士、白晨博士为共同通讯作者。
赖氨酸PTM是调控蛋白质功能、信号转导及疾病进程的关键分子事件,然而其实验鉴定仍面临高成本、低通量等挑战。现有计算方法大多依赖人工设计的序列特征,难以有效整合三维结构信息,且模型往往局限于单一PTM类型,泛化能力不足。如何构建一个能够融合多源信息、统一挖掘多种PTM类型的智能预测模型,成为领域内需要突破的瓶颈。
本研究提出了一种双模块深度学习框架,一方面利用蛋白质语言模型ESM-2从序列中提取语义特征,另一方面基于AlphaFold提供的结构数据构建原子级接触图,并通过图卷积网络(GCN)捕捉空间结构信息。两类特征融合后,经由多层感知机实现PTM位点分类。该框架在六类常见赖氨酸PTM(包括乙酰化、琥珀酰化、巴豆酰化等)中均表现出稳定且优异的预测性能,F1分数最高达80.9%,AUC最高达88.3%,且在不同数据集划分策略下均保持强泛化能力,结果重复评估的波动范围较小(±1.0–1.5%)。

图1.预测模型总体架构。模型主要由一个结构信息处理模块和一个序列信息处理模块构成。两个模块输出的特征向量经过拼接后,送入一个全连接网络进行降维处理,以生成最终输出。具体来说,结构信息处理模块基于氨基酸的原子级别三维坐标构建接触图,并通过图神经网络对其进行分析;序列信息处理模块则借助大语言模型获取表征,再通过线性层与双向长短期记忆网络对特征作进一步处理。
为进一步验证模型的实际应用价值,研究团队将其应用于人源C型凝集素家族12成员A(hCLEC12A)的PTM位点预测,发现K181和K174为潜在的乙酰化/巴豆酰化修饰位点。随后,通过全原子分子动力学模拟,系统比较了未修饰与修饰后hCLEC12A与抗体50C1的结合模式与结合自由能变化。结果表明,修饰后的系统(尤其是K181乙酰化及双修饰系统)显著削弱了蛋白-抗体间的相互作用,关键界面残基的能量贡献发生明显改变,从而影响复合物稳定性。

图2.hCLEC12A翻译后修饰对50C1抗体识别的影响。(A)501C与hCLEC12A在(A)K181乙酰化或(B)K174巴豆酰化与K181乙酰化状态下的结合界面。氢键、盐桥及π-π堆积相互作用分别由黄色、青色和紫色虚线表示。相对于原始系统,hCLEC12A关键残基在(C)K181乙酰化及(D)K174巴豆酰化与K181乙酰化条件下的单位残基自由能分解变化。
该研究不仅提出了一个可扩展至多种PTM类型的统一预测框架,还通过动态模拟将AI预测与生物功能验证相结合,克服了传统静态预测方法的局限性。这一“预测—验证”闭环流程为今后PTM功能挖掘、疾病机制解析以及基于关键修饰位点的靶向药物设计提供了重要工具和理论依据。
感兴趣的读者可阅读研究论文原文:https://www.pnas.org/doi/10.1073/pnas.2529141123
文章相关代码与数据已公开于GitHub平台(https://github.com/qi29/lysine-PTM-site-Mining)。
END