详情 - 项目招募 - 大学生创新创业训练计划智能管理平台

基本情况

所属批次:

第二十六期“上海交通大学大学生创新实践计划”项目

选题名称:

扩散模型的高效算法及多模态生成应用研究

选题类型:

创新训练项目

所属一级学科:

工学

所属二级学科:

计算机类

项目研究类:

创新类

所属学院:

电子信息与电气工程学院

选题发起人:

邓志杰

选题发起人角色:

指导教师

选题发起人联系方式:

登录状态下查看

指导教师承担科研课题情况:

我正在申请若干校企合作项目，我在人工智能、机器学习、生成模型等方面具有丰富的理论研究与应用实践经验，为本项目的实施奠定了基础。

指导教师对本项目的支持情况:

导师将为本项目提供理论指导与技术支持，并在项目实施过程中提供经费和实验条件保障，确保项目能顺利实施。

选题信息:

扩散模型是新兴的强大的深度生成模型，其在多个数据模态上均取得了惊人的生成性能，包括图像、视频、文本到图像、语音等等。扩散模型由离散时间随机过程或连续时间随机微分方程定义，其学习目标是逐渐消除添加在数据点上的噪声。与广泛使用的生成对抗网络和变分自动编码器相比，扩散模型不仅可以计算精确的数据似然，还可以带来更高的生成质量。

然而，为了获得一个高质量的样本，扩散模型通常需要对大型神经网络进行成百上千次evaluation，这导致了其采样速度比单步的生成对抗网络或变分自动编码器慢得多。这种低效率正在成为其在下游任务中的关键瓶颈。为了解决此问题，一方面，我们可以降低扩散模型工作的维度，例如，像stable diffusion一样，在一个高维图像对应的低维隐空间中进行扩散模型的学习和推断；另一方面，我们可以从neural ode和deq模型中攫取灵感，通过引入更为高效的采样器来加速扩散模型的采样过程。这两方面的研究是正交的，因此其带来的效率提升是可以叠加的。

另一方面，扩散模型在多模态的内容生成方面还比较局限。如何更好的将扩散模型和预训练的foundation model（例如 gpt-3，clip）结合，以实现在全新场景中的zero-shot generation是一个非常重要的问题。

本项目预计对上述的若干问题进行针对性的研究，旨在构建更高效的扩散模型采样方法或探索扩散模型更有趣的生成应用，或二者兼具。

选题成员

已经选择选题成员数量:

0

指导教师

序号	教师姓名	电子邮箱	所属学院
1	邓志杰	登录状态下查看	电子信息与电气工程学院	第一指导教师

大学生创新创业训练计划智能管理平台

创新创业管理系统

详情

扩散模型的高效算法及多模态生成应用研究

基本情况

选题成员

指导教师

选题附件