详情

D多模态RNA预训练大模型

申报人:潘小勇 申报日期:2024-03-01

基本情况

第二十九期上海交通大学大学生创新实践计划
D多模态RNA预训练大模型
创新训练项目
工学
计算机类
创新类
电子信息与电气工程学院
潘小勇
指导教师
登录状态下查看
科技部重大研发计划等
每周组会讨论进展,支持学生参加学术会议

基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合,可以实现生物基础模型,加速复杂分子相互作用的机械理解和生成设计。现有的RNA预训练模型大多为理解任务而架构,其得到的核酸表征应用于生成任务的微调环节会产生偏差。于是,提出一个统一的、用于理解和生成任务的预训练模型至关重要,它具体包括四部分:1)利用单序列Evoformer架构对序列编码,充分理解核酸序列信息;2)基于BERT模型构建文本编码器,对核酸文本描述建模;3)为了使多模态数据充分交互,设计多模态融合编码器,得到多模态融合表征;4)构建自回归生成解码器,将生成任务融入预训练目标中。通过编码器-解码器架构,我们可以同时对理解任务和生成任务进行自监督预训练。这种灵活的架构充分地提升了模型的理解和生成能力,并适应下游多模态任务。

选题成员

0

指导教师

序号 教师姓名 电子邮箱 所属学院
1 潘小勇 登录状态下查看 电子信息与电气工程学院 第一指导教师

选题附件

结束