蛋白质序列中的内在无序区域(Intrinsically disordered regions, IDRs) 一直以来是一个极具挑战性的领域。IDRs存在于超60%的人源蛋白中,而且在人类疾病相关的错义突变 (missense mutations)中,约25%就发生在IDR区域。然而,由于研究IDR中的错义突变非常困难,导致许多IDR突变在ClinVar数据库中被标记为“意义未明突变”(Variants of uncertain significance, VUSs)。这些大量的VUS被判定为“意义未明”的原因在于对于IDR生理功能认知的缺乏。
近年来,IDRs被广泛报道通过相分离(phase separation)形成无膜生物分子凝聚体(condensate)。这些凝聚体(condensates)在许多生物过程中发挥重要作用,例如细胞核内的核仁和转录工厂、细胞质中的应激颗粒以及内耳毛细胞的蛋白质高密度区域等。IDRs中的错义突变可以通过改变相分离行为来扰乱蛋白质的正常生理功能。
2024年9月27日,上海交通大学Bio-X研究院陆青/贺光/石毅团队在Nature Communications发表题为Decoding Missense Variants by Incorporating Phase Separation via Machine Learning的研究论文。该工作通过加入相分离特征,开发了对临床错义突变致病性预测的新工具,提高了对IDR区域突变位点致病性预测的准确性。
研究者首先利用PhaSepDB以及LLPSDB中通过实验验证的错义突变数据训练了一个名为PSMutPred的计算工具,来预测突变影响蛋白相分离的倾向。现有的基于序列的相分离预测算法仅基于已知的相分离蛋白集合进行训练,PSMutPred比现有算法相比展现出更强的鲁棒性,并能够预测突变是增强还是减弱相分离。研究者还选取了他们感兴趣的耳聋相关基因EPS8进行实验验证分析。随后提出利用相分离特征来改进对IDR疾病变异的预测,将PSMutPred得分等多个相分离相关特征整合到现有的无监督致病性预测方法中(包括EVE和ESM1b)。观察到预测准确性显著提高,尤其是对于低保守性IDR(pLDDT<50)中的变异,精确率-召回率曲线下面积(AUPR)提高了约10%,证明了该方法提高了对IDR区域突变位点致病性预测的准确性。
图1:算法概要
该方法已申请了国家专利保护,研究者同时建立了网站(www.psmutpred.online)可以查询并下载人类蛋白质组所有可能突变的预测结果,包含预测突变影响相分离的打分(IP分数)以及突变增强或减弱相分离的预测打分(SP分数)。
图2:PSMutPred分数查询界面
上海交通大学Bio-X研究院博士生冯莫凡、魏晓西为该论文共同第一作者。上海交通大学陆青长聘教轨副教授、石毅副研究员和贺光研究员为文章共同通讯作者。相关工作得到国家重点研发计划、国家自然科学基金、上海市教委科研创新计划重大项目等项目资助。
陆青课题组聚焦听力障碍、大脑发育障碍等临床变异的致病机制,前期系列工作深入探讨耳毛细胞发育过程关键蛋白质凝聚体的组装与调控机制(Nat. Commun. 2023 & Proc. Natl. Acad. Sci. 2024)。课题组长期以来致力于阐释相关临床变异位点的致病机理,为听力障碍的预防和治疗提供支持。贺光、石毅课题组聚焦神经精神疾病的医学遗传学研究及相关工具开发和应用,同时关注癌症表观遗传学研究及个性化治疗型肿瘤mRNA疫苗开发。欢迎相关领域热爱科研的朋友来访联系。
文章链接:https://www.nature.com/articles/s41467-024-52580-3
参考文献:
1. Feng, M., Wei, X., Zheng, X. et al. Decoding Missense Variants by Incorporating Phase Separation via Machine Learning. Nat Commun 15, 8279 (2024).