详情

面向巨量学术文献的Idea相似度问题探索

申报人:傅洛伊 申报日期:2024-03-01

基本情况

第二十九期上海交通大学大学生创新实践计划
面向巨量学术文献的Idea相似度问题探索
创新训练项目
工学
计算机类
创新类
电子信息与电气工程学院
傅洛伊
指导教师
登录状态下查看
(1) 国家自然科学基金委员会, 国际(地区)合作与交流项目, 62020106005, 知识驱动下的大图度量与分
析, 2021-01-01 至 2025-12-31, 232万元, 在研, 主持
(2) 国家自然科学基金委员会, 国际(地区)合作与交流项目, 62061146002, 基于人工智能的未来物联网技
术与服务, 2020-08-01 至 2025-07-31, 400万元, 在研, 参与
(3) 国家自然科学基金委员会, 国际(地区)合作与交流项目, 61960206002, 面向内容服务的智能移动互联
网关键技术及应用, 2020-01-01 至 2024-12-31, 256万元, 在研, 参与
(4)上海市科学技术委员会, 自然科学基础研究特区计划, 21TQ1400214, 海洋知识系统的构建与应用,
2022-11 至 2026-10, 250万元, 在研, 主持

本项目依托上海交通大学“计算机科学与技术”国家重点学科、上海“云
计算”联合实验室、“可扩展计算与系统” 上海市重点实验室及并行与分布计
算研究所开展研究工作,参与制定了 2 项 ITU 国际标准、1 项 IETF 互联网国
际标准已被采纳,并在国内布网应用。研究团队主要学术方向包括移动互联网、物联网、社会网络,取得
了一系列成果并投入应用。与华为公司联合在上海交通大学闵行校区构建公共
物联网协同创新平台,实现了上海交大闵行校区的全方位覆盖,通过有效集成
移动互联网、无线局域网、数字广播网、云计算中心,为各类移动互联网关键
技术创新提供系统性演示验证平台。Acemap 学术地图系统现有涵盖 2.2 亿篇论
文,1.1 亿名学者的学术大数据。联合富士康科技集团构建面向工业 4.0 的广域
物联网智能定位平台,平台应用于富士康云管家智能物流监控系统,目前在上
海、深圳、南宁三个园区得到应用,覆盖 5 万员工,3500 台物流车辆,提高了
企业物流自动化水平。研究团队拥有实验和办公用房面积超过 600 平方米,仪
器设备等固定资产 1600 万元,为研究工作的开展提供了良好实验条件和环境。
为了进行移动互联网信息传输与内容分发相关的研究。

现今,学术文献爆炸式增长。现有的学术搜索引擎大多聚焦于关键词检索,然而关键词并不能完全体现出论文的研究思想、贡献等更深层次的语义信息,如何有效地解析论文,提取论文内的研究问题、解决方法以及研究贡献并检索相似论文仍是待探索的问题。尤其,不同的学术文献之间的idea往往呈现出某个或多个维度的相似性(如思想方法高度一致、贡献相关、规律发现相似、解决思路相似等)。系统化地梳理和返回巨量文献之间的idea相似性,有助于为科研人员提供领域内、领域间不同程度学术发展脉络的结构化图谱,帮助科研人员理清学术研究发展的来龙去脉,并有机会从中发现潜在的有趣的科学新问题。现有的人力阅读方法已远远无法胜任激增的学术文献深度浏览的重任,唯有有效利用AI技术,涉及高效智能的类人化文本深度理解方法,才能有机会破解这个难题。

针对这一问题,本课题基于大预言模型技术自动化构建了论文的研究思想数据集,利用先进的模型微调技术,训练大语言模型有效地提炼出论文的研究思想;并将模型输出的特征向量与向量数据库技术结合构建高效的检索系统;最后课题拟基于检索增强的文本生成(RAG)技术,设计出针对下游文本生成任务自适应、可学习的检索网络,进一步提升大模型的文献理解能力。

该项目是一项集理论创新与技术落地于一体的系统性实践项目,最后会在2亿余篇学术文献上进行部署验证,具有较高的实际价值。欢迎感兴趣的同学选报。尤其,对于大模型,知识图谱,自然语言处理等技术有兴趣的同学非常值得选报该课题,会收获多方面的技能和素养提升。

选题成员

4

指导教师

序号 教师姓名 电子邮箱 所属学院
1 傅洛伊 登录状态下查看 电子信息与电气工程学院 第一指导教师

选题附件

结束