2023年11月23日下午14.00,应西北师范大学计算机科学与工程学院邀请,哈尔滨工业大学赵妍妍教授作题为“大语言模型时代下的AI安全”的学术报告。此次报告由我院张志昌教授主持,部分老师以及我院研究生参与此次报告。
赵妍妍教授围绕原始语言大模型安全性、输出不良言论的风险以及大模型安全性缺陷所导致的其他危险问题,介绍了与人类安全对齐的大语言模型的主要研究任务为不同视角都需要对齐-检测,着重分享了如何对不良信息进行识别,提出了一种“活字”对话大模型中的不良信息体系,并详细介绍模型价值观对齐以及“活字”大模型的安全性、语言对齐、行为对齐、价值观的求同存异。
最后,赵妍妍教授与在线师生就AI安全的有关问题进行互动交流,并对师生的提问给出了详细解答与说明。
版权所有©西北师范大学计算机科学与工程学院 管理登录