一种基于内容增强的语言模型学习动态用户兴趣的方法
申请人信息
- 申请人:安徽省立医院(中国科学技术大学附属第一医院)
- 申请人地址:230001 安徽省合肥市庐阳区庐江路9号
- 发明人: 安徽省立医院(中国科学技术大学附属第一医院)
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于内容增强的语言模型学习动态用户兴趣的方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311675014.9 |
| 申请日 | 2023/12/8 |
| 公告号 | CN117390290B |
| 公开日 | 2024/3/15 |
| IPC主分类号 | G06F16/9535 |
| 权利人 | 安徽省立医院(中国科学技术大学附属第一医院) |
| 发明人 | 高敏; 陈恩红; 蒋浚哲; 张凯; 李京秀; 王慕秋; 宋雪莉 |
| 地址 | 安徽省合肥市庐阳区庐江路9号 |
摘要文本
本发明涉及人工智能领域,具体涉及一种基于内容增强的语言模型学习动态用户兴趣的方法,包括:收集用户的历史物品选择数据;将物品的知识标记输入参数冻结的预训练语言模型得到知识提示;基于知识提示生成用户的历史行为序列;基于用户的历史行为序列和知识提示生成推理提示;将不断训练调优的语言模型预测的结果使用集束搜索筛选后生成预测物品的向量表示;并通过余弦相似度对比将预测物品的向量表示映射到数据库中的某个物品作为用户最终的推荐物品。本发明具有整合外部知识以增强对物品内容理解建模的优势,通过融合两个领域的知识,弥合语言模型和推荐系统之间的差距。。微信公众号专利查询网
专利主权项内容
1.一种基于内容增强的语言模型学习动态用户兴趣的方法,其特征在于,包括以下步骤:步骤一,收集用户的历史物品选择数据,定义用户的历史物品选择数据中第个物品为物品/>,物品/>包括物品的标题/>和物品的详细文本/>,以所有物品的标题作为标题集合,将标题集合转化为历史行为文本/>;步骤二,将物品的知识标记转化为知识标记嵌入向量,输入到知识提示生成模块的多层感知机得到知识提示;步骤三,将知识提示拼接到参数冻结的预训练语言模型每一层注意力模块的参数之前,得到每一层注意力模块的扩充后的键矩阵和扩充后的值矩阵,其中第/>层的注意力模块扩充后的键矩阵为/>,第/>层的注意力模块扩充后的值矩阵为/>;步骤四,基于扩充后的键矩阵和扩充后的值矩阵/>计算物品/>的向量表示/>,并将所有物品的向量表示作为用户的历史行为序列/>;步骤五,基于用户的历史行为序列和知识提示/>生成推理提示/>;步骤六,基于推理提示和历史行为文本/>,使用不断训练调优的语言模型/>预测不同物品作为用户感兴趣的物品的概率,使用集束搜索根据不同物品作为用户感兴趣的物品的概率生成文本序列,将集束搜索最后筛选得到的文本序列作为集束搜索解码预测的文本;步骤七,将集束搜索解码预测的文本输入不断训练调优的语言模型生成预测物品的向量表示/>;步骤八,比较预测物品的向量表示与数据库/>中每个物品的向量表示的余弦相似度,以数据库/>中与预测物品的向量表示/>的余弦相似度最高的物品作为用户最终的推荐物品;其中,步骤五具体包括:推理提示为:
;
;其中,为表示用户的历史行为与知识标记之间相关性的权重矩阵,/>表示参数冻结的预训练语言模型隐藏层的维度,/>为归一化函数,/>为矩阵转置,/>为sigmoid激活函数,/>分别为计算用户历史行为与知识标记相关性的注意力机制的查询矩阵、键矩阵和值矩阵,/>为可学习的权重矩阵,/>为可学习的偏置向量;计算用户历史行为与知识标记相关性的注意力机制的查询矩阵为:
;计算用户历史行为与知识标记相关性的注意力机制的键矩阵为:
;计算用户历史行为与知识标记相关性的注意力机制的值矩阵为:
;其中,分别为用于计算查询矩阵/>、键矩阵/>和值矩阵/>的可学习的权重矩阵,/>分别为用于计算查询矩阵/>、键矩阵/>和值矩阵/>的可学习的偏置向量。