← 返回列表

一种大语言模型知识增强方法及系统

申请号: CN202311818163.6
申请人: 卓世科技(海南)有限公司
申请日期: 2023/12/27

摘要文本

本发明涉及数据处理技术领域,提出了一种大语言模型知识增强方法及系统,包括:获取原始事务库;根据每个频繁1‑项集所在不同事务中事务项的分布确定事务子矩阵;根据不同事务子矩阵内元素分布的相似性确定项集语义相似度;根据每棵FP子树内每条链接路径上节点之间的相似程度确定规则潜在系数;根据每棵FP子树内每条链接路径上节点内项集携带语义信息的相似程度确定文本信息发散指数;根据规则潜在系数、文本信息发散指数获取冗余概率;采用数据挖掘算法基于冗余概率得到情感关联规则;基于情感关联规则实现用于情感分析的大语言模型的知识增强。本发明通过挖掘评价文本中的情感关联规则提高了模型知识的情感分析推理能力。 数据由马 克 数 据整理

专利详细信息

项目 内容
专利名称 一种大语言模型知识增强方法及系统
专利类型 发明授权
申请号 CN202311818163.6
申请日 2023/12/27
公告号 CN117474013B
公开日 2024/3/22
IPC主分类号 G06F40/30
权利人 卓世科技(海南)有限公司
发明人 王亚; 赵策; 屠静; 苏岳; 万晶晶; 李伟伟; 颉彬; 周勤民; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
地址 海南省三亚市崖州区崖州湾科技城用友产业园(三亚)2号楼102室

专利主权项内容

1.一种大语言模型知识增强方法,其特征在于,该方法包括以下步骤:基于已有评论文本数据的分词处理结果获取原始事务库;根据每个频繁1-项集所在不同事务中事务项的分布确定每个频繁1-项集的事务子矩阵;根据不同频繁1-项集的事务子矩阵内元素分布的相似性确定每棵FP子树的项集语义相似度;根据每个频繁1-项集对应FP子树内每条链接路径上节点之间的相似程度确定所述FP子树的规则潜在系数;根据每个频繁1-项集对应FP子树内每条链接路径上节点内项集携带语义信息的相似程度确定所述FP子树的文本信息发散指数;根据每个频繁1-项集中对应FP子树的规则潜在系数、文本信息发散指数获取所述FP子树上每个节点的冗余概率;采用数据挖掘算法基于每个频繁1-项集中对应FP子树上所有节点的冗余概率得到情感关联规则;基于情感关联规则实现用于情感分析的大语言模型的知识增强;所述根据每个频繁1-项集对应FP子树内每条链接路径上节点之间的相似程度确定所述FP子树的规则潜在系数的方法为:将每个频繁1-项集作为目标项集,将每个频繁1-项集对应FP子树上目标项集所在节点标记为目标节点,将每个频繁1-项集的FP子树上每条经过目标项集的链路作为主要链路,将每条主要链路上目标项集的支持度与链路上任意一个节点内项集支持度的均值作为第一均值;将每条主要链路上目标项集对应的词性权重与链路上任意一个节点内项集对应词性权重的均值作为第二均值;将每条主要链路上目标项集与链路上任意一个节点内项集之间的语义分布接近系数与第一均值、第二均值的乘积作为每条主要链路上任意一个节点的数据关联系数;将每条主要链路上所有节点的数据关联系数的均值作为第一计算因子;将第一计算因子在每棵FP子树上所有主要链路上累加结果的均值作为目标节点的规则关联系数;每棵FP子树的规则潜在系数由项集语义相似度、规则关联系数两部分组成,其中,所述规则潜在系数分别与项集语义相似度、规则关联系数成正比关系;所述根据每个频繁1-项集对应FP子树内每条链接路径上节点内项集携带语义信息的相似程度确定所述FP子树的文本信息发散指数的方法为:将每条主要链路上每个节点作为无向图中的一个节点所确定的无向图作为一幅节点分布图,采用深度游走算法得到每幅节点分布图中每个节点的节点分布向量;将每条主要链路上目标项集所在节点的子孙节点与祖先节点数量之和作为分子;将每条主要链路上目标项集所在节点与其余节点对应节点分布向量之间度量结果的映射结果在每条主要链路上累加结果的均值作为分母;将分子与分母的比值作为每条主要链路的节点发散指数;将每个频繁1-项集对应FP子树上所有主要链路的节点发散指数的均值作为所述FP子树的文本信息发散指数。