指导教师已经在人工智能安全模型与测试方法方面展开了长期的研究工作,在对抗样本的生成方法、对抗样本检测技术、深度模型的鲁棒性分析几个方面均已形成了一系列的方法创新。
航天科学技术基金“深度神经网络模型鲁棒性评估方法”
华为公司创新研究计划“AI计算过程中的对抗样本攻击与防御”
为本项目的顺利研究,将为本项目专门配备两名研究生进行项目研究指导,配备人工智能模型训练GPU服务器,及其超算服务账号,保障项目的计算资源。
(一) 项目简介(200字以内)
随着研究大模型的研究推进,大语言模型在生产生活中展现了其强大的实力。但是大语言模型作为一种黑盒模型可能存在着大量难以量化和控制的安全隐患,并且到现如今仍没有一套完整的评估手段对其进行有效的统筹分析,现存的方案也大多零散且不具有一般性。
以此为背景,本项目将对大语言模型的安全评估进行深入的调研,在此基础上尝试开发出一套在某一领域具有较高一般性、完整性的统筹评估工具,并对现行模型进行一定的分析工作。
(二) 研究目的
由于现行大语言模型具有较强的黑盒属性,而市面上也缺乏的具有完整安全评估策略工具,我们尝试对现行评估方案进行调研,从中总结能够切实有效地对大语言模型安全领域进行评估的内容,并尝试进行完整方案的编写与创新,来更好、更完整地评估一个大语言模型的安全隐患,借此有效地约束模型发行商,提高流通大语言模型的安全性。
(三) 研究内容
1) 阅读并尝试理解现有的对大语言模型进行的安全评估策略;
2) 统筹分析各个安全评估方案的客观有效性、完整性以及检测能力;
3) 统筹分析结果并整理出一个完整且客观有效的评估策略,并基于该策略实现一套具有创新性、一定检测能力的检测工具;
4) 使用实现的检测工具对现行大语言模型进行统筹分析;
5) 总结研究经验和仍有待改进的地方;
(四) 国、内外研究现状和发展动态
基于Transformer、具备庞大语料库与参数规模的大语言模型在许多下游任务上展现出了惊人的性能,在对话生成、问题回答、文本摘要、文本推理等任务上都取得了巨大突破。然而,因为预训练语料库巨大,难以人工审查或过滤,难以避免地含有过时、偏见或不符合人类价值观的文本内容,从而导致模型的参数化知识中存在有毒内容。基于SFT与RLHF的对齐过程有助于提升大语言模型的对话性能,但也在一定程度上导致了幻觉等安全问题。
已有的安全研究主要集中在对大语言模型的毒性、偏见与滥用上。幻觉与不确定性也是影响语言大模型安全性的重要指标之一。许多针对大语言模型幻觉的研究在流程上进行了创新,使用评估模型辅助人工评测,然而如何更好地结合基于模型的自动评估与人工评估仍是一个亟待解决的问题。在安全方面,已经有一些研究探讨了ChatGPT等模型的伦理、偏见与滥用的可能,然而对大语言模型,尤其是中文大语言模型的全面安全评估研究仍处于起步阶段。
(五) 创新点与项目特色
[1] 在现有的安全评估策略基础上,从中甄别出有现实价值并且能够直接影响到大语言模型使用安全的领域,对其进行针对性策略设计,提高其有效性和完整性;
[2] 在原有的检测方案上加入多角色模型迭代等技术,有效提高检测工具的在指定领域的检测能力;
(六) 技术路线、拟解决的问题及预期成果
通过调研现有方案,甄别出有效指标,并在一些无效指标中进行一定的设计提高其有效性,用于完整评估方案,并且自此基础上提供一套针对事实一致性、模型倾向等方面的评估手段,加入现在大多用于生成的大模型辅助手段,利用特定模型自动化、高效地对待测模型进行有效地评估,为大语言模型的安全评估发展做出贡献。
(七) 项目研究进度安排
2023年10月-2023年12月 大语言模型安全评估领域的论文研读,学习大模型部署、使用以及结果分析需要的编程内容,完成对大语言模型的理解;
2024年1月 总结分析结果,开始形成有效且完整的安全评估方案,并开始设计小组分析的目标安全领域的安全分析套件;
2024年2月-2024年6月 基于设计的安全分析套件方案,进行安全评估工具的实现,对现行大语言模型进行评估,并总结分析结果;
2024年7月-2024年8月 对现行大语言模型进行评估,并总结分析结果,以此撰写研究论文;
2024年9月 整理资料,准备结题答辩
(八) 已有基础
1. 与本项目有关的研究积累和已取得的成绩
[1] 实验室已经对现行大语言模型评估方案进行了大量调研,并且已经部署了许多大语言模型以供后续实验;
2. 已具备的条件,尚缺少的条件及解决方法
[1] 项目成员都学习了大语言模型的一些理论知识;并且有能力利用模型API进行检测实验;
[2] 项目成员属于计算机和信息安全专业,具有良好的专业基础;已有实验室的大语言模型以及大模型API的使用经历,便于后续实验;