详情

基因本体知识引导下的蛋白质结构表征学习

申报人:潘小勇 申报日期:2022-03-11

基本情况

第二十五期“上海交通大学大学生创新实践计划”项目
基因本体知识引导下的蛋白质结构表征学习
创新训练项目
工学
计算机类
创新类
电子信息与电气工程学院
潘小勇
指导教师
登录状态下查看

1.  基于深度图卷积网络的lncRNA复杂功能预测,国家自然科学基金-青年基金,28万,2020/01-2022/12,在研,主持

2.  基于可解释图神经网络的新冠肺炎药物设计,上海市2020“创新科技行动计划”生物医药专项,20万,202010-202209,在研,主持

提供机器学习和生物信息专业知识和学术指导, 还提供强大的计算资源;提供一定的经费支持学生参加相关的学术会议

随着蛋白结构AlphaFold预测准确度接近实验水平, 基于结构预测蛋白功能变得可行。蛋白质结构比较的目的是衡量两个不同蛋白质之间的结构相似性。对于涉及蛋白质的结构生物信息学来说,结构比较工具可以说是一种基础设施,是蛋白质结构预测,蛋白质分子对接,基于结构的蛋白质功能预测等任务必不可少的一部分。蛋白质结构比较方法分为两大类,一种是基于结构对齐的方法,另一种是基于表征的方法。蛋白质结构对齐方法通常比较耗时,无法满足大规模蛋白质结构检索的需求。随着蛋白质结构数据的迅速增长,基于表征的方法获得了越来越多的关注。

目前的蛋白质结构表征方法依赖于人工设计的特征,本发明将图神经网络、自监督学习技术与蛋白质结构的领域的知识(如基因本体知识 GO)相结合,本课题拟提出了一种更有效的表征方法,该方法能够生成更有鉴别力的描述子。使用该描述子可以更准确地识别目标蛋白质的相似结构,并且可提升蛋白质结构分类的精度。对于目标蛋白质,首先提取其中所有残基的α碳原子在三维空间中的全局坐标,然后根据全局坐标计算得到邻接矩阵和原始节点特征。基于动量对比学习框架MoCo构建模型,其包含两个架构相同的基于图神经网络的编码器。将一个蛋白质的邻接矩阵和原始节点特征输入到训练好的编码器中,最终结果即为蛋白质结构的描述子.。同时,利用基因本体知识来引导学习得到的表征能够更好地用于蛋白质功能预测。本项目涉及图神经网络,自监督对比学习,蛋白结构表征等。

选题成员

0

指导教师

序号 教师姓名 电子邮箱 所属学院
1 潘小勇 登录状态下查看 电子信息与电气工程学院 第一指导教师

选题附件

结束