一种基于情景适配的共情对话训练方法及系统
摘要文本
本发明涉及一种基于情景适配的共情对话训练方法及系统,属于人工智能技术领域。本发明的基于情景适配的共情对话训练方法及系统能够使参与方A和B共同训练一个对话生成模型,以生成个性化的医疗和旅行领域对话回复;通过联邦学习框架,保护了参与方的数据隐私和安全,提高了训练效率;模型参数的聚合和全局模型的下发和更新确保了模型在各参与方之间的知识共享和迭代优化,提高了对话生成模型的性能和适应性;同时,该方法具备广泛的应用前景,在其他领域的对话生成任务中同样适用,如客服对话、智能助理等。
申请人信息
- 申请人:北京计算机技术及应用研究所
- 申请人地址:100854 北京市海淀区永定路51号
- 发明人: 北京计算机技术及应用研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于情景适配的共情对话训练方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311722366.5 |
| 申请日 | 2023/12/14 |
| 公告号 | CN117689007A |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06N3/098 |
| 权利人 | 北京计算机技术及应用研究所 |
| 发明人 | 王斌; 郭青松; 吴朝雄; 吴桐; 王哲 |
| 地址 | 北京市海淀区永定路51号 |
专利主权项内容
1.一种基于情景适配的共情对话训练方法,其特征在于,包括以下步骤:步骤1:初始化全局模型,该全局模型为对话模型;在联邦学习开始之前,初始化一个全局模型,使用基于transformer的预训练模型gpt-2,利用多轮对话训练集对全局模型进行训练,首先输入文本经过词嵌入层,将每个词转换为对应的词向量表示,输入序列为X=[x1, x2, ..., xn],其中x表示第i个词的索引,n为输入序列中词的数量;词嵌入层将每个词的索引x映射为一个d维的词向量得到输入序列的词嵌入表示E=[e, e, ..., e];gpt-2使用多头自注意力机制来捕捉输入序列中的上下文关系,多头自注意力机制包括三个步骤:①查询、键和值的计算,输入序列的词嵌入表示E通过三个矩阵变换Q=E·WQ、K=E·WK、V=E·WV得到查询向量Q、键向量K和值向量V,其中WQ、WK和WV分别是可学习的参数矩阵;②注意力分数的计算,计算查询向量Q和键向量K之间的点积,再通过缩放因子d进行缩放,得到注意力分数:softmax函数是归一化指数函数,将结果值转化为[0, 1]之间的概率;③加权求和,将注意力分数与值向量V进行加权求和,得到自注意力的输出:Output=Attention·V;为了保留输入序列中的位置信息,gpt-2使用位置编码来为每个位置添加一个固定的向量表示,位置编码公式如下:/>其中,pos表示位置索引,i表示维度索引,d表示词向量的维度;在自注意力计算和位置编码之后,通过残差连接将输入序列与自注意力的输出Output相加;在每个注意力层之后,gpt-2还包含一个前馈神经网络层,用于对每个位置的特征进行非线性变换和映射,前馈神经网络层由两个线性变换和激活函数组成;gpt-2模型的最后一层是一个线性变换和softmax函数,用于将模型的最终输出映射到词汇表上的概率分布:output_probs=softmax(output·W+b),其中W、b分别是可学习的参数矩阵和偏置向量;ii12nk2222步骤2:分发全局模型,将初始全局模型参数θ下发各个客户端{U, U, ..., U};g12m步骤3:本地模型训练,将服务端在上一轮迭代中得到的全局模型参数下方给客户端,客户端将服务端下发的全局模型参数θ初始化本地模型参数θ及本地的参考模型参数θ′,每个客户端利用自己的本地数据集进行本地模型训练,数据集为对话数据集,所有客户端的数据集标记为{D, D, ..., D};接下来,通过优化算法更新模型参数:θ←θ-η·▽L(θ, D),其中,θ是第i个客户端的本地模型参数,η是学习率,L(θ, D)是损失函数;在本地模型训练中,基于强化学习近端策略优化PPO的调优方法优化gpt-2模型;gii12miiiiiii步骤4:参数上传及聚合,每个客户端将经本地训练并更新后的模型参数上传到服务端,服务端收到参数后通过聚合算法将参数进行聚合,得到全局模型参数θ;g步骤5:模型更新,服务端将聚合后的全局模型参数θ下发给所有客户端;客户端接收到全局模型参数后,将其用作下一轮的本地模型参数,将全局模型替换本地模型后,原本地模型参数作为参考模型参数,即θ=θ,θ′=θ;gigii-1步骤6:迭代训练,重复步骤3到步骤5,直至满足预设的停止条件,如达到最大迭代轮数或模型收敛。