← 返回列表

一种目标语言模型的训练方法、装置和电子设备

申请号: CN202410106041.2
申请人: 北京大学
申请日期: 2024/1/25

摘要文本

本申请实施例公开了一种目标语言模型的训练方法、装置和电子设备,所述训练方法涉及自然语言处理技术领域,其方法包括:基于第一排序数据集中的第一训练数据、以及第一待训练模型的建模偏好关系,对第一待训练模型进行迭代训练,得到对应的奖励模型;基于第二排序数据集中的第二训练数据、以及多个安全性标签,对第二待训练模型进行迭代训练,得到对应的代价模型;获取奖励模型对应的奖励信号,以及获取代价模型对应的代价信号;以及基于奖励信号、代价信号和拉格朗日乘子,对待对齐处理的语言模型进行安全强化学习训练,得到对应的目标语言模型。

专利详细信息

项目 内容
专利名称 一种目标语言模型的训练方法、装置和电子设备
专利类型 发明申请
申请号 CN202410106041.2
申请日 2024/1/25
公告号 CN117634506A
公开日 2024/3/1
IPC主分类号 G06F40/35
权利人 北京大学
发明人 杨耀东; 戴俊韬; 潘学海; 吉嘉铭
地址 北京市海淀区颐和园路5号

专利主权项内容

1.一种目标语言模型的训练方法,其特征在于,所述方法包括:获取用于训练待对齐处理的语言模型的待训练数据集,所述待训练数据集包括:基于帮助性偏好度的第一排序数据集,基于安全性偏好度的第二排序数据集,以及基于安全性维度上的多个安全性标签;所述待对齐处理的语言模型包括第一子模型和第二子模型,所述第一子模型为:基于帮助性偏好度,能够将所述目标数据在多个不同的第一子维度上进行拆分处理的语言处理子模型;所述第二子模型为:基于安全性偏好度,能够将所述目标数据在多个不同的第二子维度上进行拆分处理的语言处理子模型;基于所述第一排序数据集中的第一训练数据、以及第一待训练模型的建模偏好关系,对第一待训练模型进行迭代训练,得到对应的奖励模型,所述奖励模型能够预测对应的第一偏好度,所述第一待训练模型对应有第一损失函数;基于所述第二排序数据集中的第二训练数据、以及所述多个安全性标签,对第二待训练模型进行迭代训练,得到对应的代价模型,所述代价模型能够预测对应的第二偏好度,所述代价模型还能够预测所述第二排序数据集中的不同回复对应的安全性标签,所述第二待训练模型对应有第二损失函数;获取所述奖励模型对应的奖励信号,以及获取所述代价模型对应的代价信号;基于所述奖励信号、所述代价信号和拉格朗日乘子,对所述待对齐处理的语言模型进行安全强化学习的训练处理,得到对应的目标语言模型;在所述训练处理中,通过拉格朗日乘子,控制所述奖励信号对应的帮助性偏好度和所述代价信号对应的安全性偏好度之间的平衡度,以使得所述目标语言模型对应有更高的输出奖励值、且所述目标语言模型对应有低于预设阈值的输出代价值。