← 返回列表

基于图数据库的利用LLM从PDF构建知识图谱的方法及装置

申请号: CN202311679563.3
申请人: 杭州悦数科技有限公司
申请日期: 2023/12/8

摘要文本

本申请涉及知识图谱技术领域,解决了现有技术中从PDF文件构建知识图谱需要大量的人工介入的问题,公开了一种基于图数据库的利用LLM从PDF构建知识图谱的方法及装置,包括:按页读取PDF文件内容,并对所述PDF文件内容进行标记文本重要度和分片处理以制得文本分片数组,生成最终的提示模板,利用LLM获取点信息和边信息并缓存到点缓存池和边缓存池,将点缓存池和边缓存池中的数据存储到图数据库中,通过LLM来理解PDF文件中的文本内容,提取出关键信息,以及理解这些信息之间的关系,并将这些信息转化为知识图谱的形式,能够大大的减少人工标注、数据映射等过程。

专利详细信息

项目 内容
专利名称 基于图数据库的利用LLM从PDF构建知识图谱的方法及装置
专利类型 发明授权
申请号 CN202311679563.3
申请日 2023/12/8
公告号 CN117391192B
公开日 2024/3/15
IPC主分类号 G06N5/02
权利人 杭州悦数科技有限公司
发明人 苗壮; 叶小萌
地址 浙江省杭州市余杭区仓前街道时代未来之城5幢2201室

专利主权项内容

1.一种基于图数据库的利用LLM从PDF构建知识图谱的方法,其特征在于,包括:使用PDF.js 库按页读取PDF文件内容,并对所述PDF文件内容进行标记文本重要度和分片处理以制得文本分片数组;根据所述文本分片数组生成最终的提示模板;通过LLM查询批量获取文本分片的点信息和边信息,并分别将点信息和边信息缓存到点缓存池和边缓存池;将点缓存池和边缓存池中的数据存储到图数据库中;其中,对所述PDF文件内容进行标记文本重要度处理包括:遍历所有页的文本内容,获取文本内容中每行文字所有类别的字高,并将字高从大到小排序,存储在字高数组中;再次遍历每页的文本内容,将不同字高的文本行按照其字高所在字高数组中的次序,包裹上H标签+次序X,以生成伪html片段;根据所述文本分片数组生成最终的提示模板,包括:构建点和边的缓存池;选取一个文本分片,遍历点缓存池,检测当前文本分片内是否有该点名称存在,若存在,则用字符包裹,得到缓存节点被字符包裹的文本分片;将文本分片按照换行符分割,过滤文本分片中的空行,然后再次用换行符合并,以得到最终的文本分片;获取图schema信息;构建提示模板,其中,所述提示模板包括文本内容和图空间描述信息;将最终的文本分片替换提示模板中的文本内容,并将图schema信息替换提示模板中的图空间描述信息,以得到最终的提示模板;获取图schema信息,包括:通过图数据库语句查询当前图空间的点类型、边类型、点类型的属性、边类型的属性、点类型的属性类型和边类型的属性类型;构造所有点类型的描述文本,将点类型和点类型的属性拼接为包含点类型所有信息的第一字符串;构造所有边类型的描述文本,将边类型和边类型的属性拼接为包含边类型所有信息的第二字符串;将第一字符串和第二字符串拼接成图schema信息;通过LLM查询批量获取文本分片的点信息和边信息,并分别将点信息和边信息缓存到点缓存池和边缓存池,包括:构建提示模板查询语句;根据最终的提示模板构造LLM请求的结构体;通过查询语句请求结构体LLM模型服务器,以得到返回的知识图谱点信息和边信息;将得到的将得到的LLM查询结果按换行符分割,并过滤掉非vertex : 和edge : 开头的语句;分别将vertex语句和edge语句去除头部后用逗号分割,得到点信息数组或边信息数组;将所述点信息数组和边信息数组分别缓存到点缓存池和边缓存池。