详情

扩散模型的高效算法及多模态生成应用研究

申报人:邓志杰 申报日期:2022-09-23

基本情况

第二十六期“上海交通大学大学生创新实践计划”项目
扩散模型的高效算法及多模态生成应用研究
创新训练项目
工学
计算机类
创新类
电子信息与电气工程学院
邓志杰
指导教师
登录状态下查看

我正在申请若干校企合作项目,我在人工智能、机器学习、生成模型等方面具有丰富的理论研究与应用实践经验,为本项目的实施奠定了基础。

导师将为本项目提供理论指导与技术支持,并在项目实施过程中提供经费和实验条件保障,确保项目能顺利实施。

扩散模型是新兴的强大的深度生成模型,其在多个数据模态上均取得了惊人的生成性能,包括图像、视频、文本到图像、语音等等。扩散模型由离散时间随机过程或连续时间随机微分方程定义,其学习目标是逐渐消除添加在数据点上的噪声。与广泛使用的生成对抗网络和变分自动编码器相比,扩散模型不仅可以计算精确的数据似然,还可以带来更高的生成质量。

然而,为了获得一个高质量的样本,扩散模型通常需要对大型神经网络进行成百上千次evaluation,这导致了其采样速度比单步的生成对抗网络或变分自动编码器慢得多。这种低效率正在成为其在下游任务中的关键瓶颈。为了解决此问题,一方面,我们可以降低扩散模型工作的维度,例如,像stable diffusion一样,在一个高维图像对应的低维隐空间中进行扩散模型的学习和推断;另一方面,我们可以从neural ode和deq模型中攫取灵感,通过引入更为高效的采样器来加速扩散模型的采样过程。这两方面的研究是正交的,因此其带来的效率提升是可以叠加的。

另一方面,扩散模型在多模态的内容生成方面还比较局限。如何更好的将扩散模型和预训练的foundation model(例如 gpt-3,clip)结合,以实现在全新场景中的zero-shot generation是一个非常重要的问题。

本项目预计对上述的若干问题进行针对性的研究,旨在构建更高效的扩散模型采样方法或探索扩散模型更有趣的生成应用,或二者兼具。

选题成员

0

指导教师

序号 教师姓名 电子邮箱 所属学院
1 邓志杰 登录状态下查看 电子信息与电气工程学院 第一指导教师

选题附件

结束