← 返回列表

基于知识图谱的生成式大模型建模方法、系统及设备

申请号: CN202410139094.4
申请人: 中国人民解放军总医院
申请日期: 2024/2/1

摘要文本

本发明属于智能医疗领域,具体涉及一种基于知识图谱的生成式大模型建模方法、系统及设备。方法包括获取文本数据集;对所述文本数据集向量化表示得到初级词向量;对所述初级词向量进行实体区间判断得到实体区间词向量;基于所述实体区间词向量得到“实体‑关系‑实体”三元组;将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。训练得到的生成式大模型可在医学领域的知识图谱的构建、问答系统、文本生成、辅助决策等场景中使用。本申请通过实体区间识别方法能更准确地识别和提取文本中的关键信息、提高信息处理的质量和效率。

专利详细信息

项目 内容
专利名称 基于知识图谱的生成式大模型建模方法、系统及设备
专利类型 发明申请
申请号 CN202410139094.4
申请日 2024/2/1
公告号 CN117688974A
公开日 2024/3/12
IPC主分类号 G06N3/042
权利人 中国人民解放军总医院
发明人 孙宇慧; 何昆仑
地址 北京市海淀区复兴路28号

专利主权项内容

1.一种基于知识图谱的生成式大模型建模方法,其特征在于,所述方法包括:获取文本数据集;对所述文本数据集向量化表示得到初级词向量;对所述初级词向量进行实体区间判断得到实体区间词向量,所述实体区间判断的具体步骤包括:第1步,所述初级词向量的语义信息输入全连接神经网络中学习得到所述语义信息的各个特征值的注意力系数;第2步,以K个所述注意力系数对应的特征值作为关键特征值,K个所述注意力系数作为关键特征系数,以关键特征值作为节点,结合关键特征系数构成邻接矩阵构建图神经网络,K为自然数整数;第3步,提取所述图神经网络的特征;第4步,所述特征通过激活函数转换为概率分布并输出概率分布;第5步,基于所述输出概率分布判断所述初级词向量是否是实体区间,如果是实体区间则输出实体区间词向量;基于所述实体区间词向量得到“实体-关系-实体”三元组;将所述三元组作为生成式大模型的训练数据集,训练得到生成式大模型。