基于图数据库的利用LLM从PDF构建知识图谱的方法及装置

申请号: CN202311679563.3

申请人: 杭州悦数科技有限公司

申请日期: 2023/12/8

摘要文本

本申请涉及知识图谱技术领域，解决了现有技术中从PDF文件构建知识图谱需要大量的人工介入的问题，公开了一种基于图数据库的利用LLM从PDF构建知识图谱的方法及装置，包括：按页读取PDF文件内容，并对所述PDF文件内容进行标记文本重要度和分片处理以制得文本分片数组，生成最终的提示模板，利用LLM获取点信息和边信息并缓存到点缓存池和边缓存池，将点缓存池和边缓存池中的数据存储到图数据库中，通过LLM来理解PDF文件中的文本内容，提取出关键信息，以及理解这些信息之间的关系，并将这些信息转化为知识图谱的形式，能够大大的减少人工标注、数据映射等过程。

申请人信息

申请人:杭州悦数科技有限公司
申请人地址:310000 浙江省杭州市余杭区仓前街道时代未来之城5幢2201室
发明人: 杭州悦数科技有限公司

专利详细信息

项目	内容
专利名称	基于图数据库的利用LLM从PDF构建知识图谱的方法及装置
专利类型	发明授权
申请号	CN202311679563.3
申请日	2023/12/8
公告号	CN117391192B
公开日	2024/3/15
IPC主分类号	G06N5/02
权利人	杭州悦数科技有限公司
发明人	苗壮; 叶小萌
地址	浙江省杭州市余杭区仓前街道时代未来之城5幢2201室

专利主权项内容

1.一种基于图数据库的利用LLM从PDF构建知识图谱的方法，其特征在于，包括：使用PDF.js 库按页读取PDF文件内容，并对所述PDF文件内容进行标记文本重要度和分片处理以制得文本分片数组；根据所述文本分片数组生成最终的提示模板；通过LLM查询批量获取文本分片的点信息和边信息，并分别将点信息和边信息缓存到点缓存池和边缓存池；将点缓存池和边缓存池中的数据存储到图数据库中；其中，对所述PDF文件内容进行标记文本重要度处理包括：遍历所有页的文本内容，获取文本内容中每行文字所有类别的字高，并将字高从大到小排序，存储在字高数组中；再次遍历每页的文本内容，将不同字高的文本行按照其字高所在字高数组中的次序，包裹上H标签+次序X，以生成伪html片段；根据所述文本分片数组生成最终的提示模板，包括：构建点和边的缓存池；选取一个文本分片，遍历点缓存池，检测当前文本分片内是否有该点名称存在，若存在，则用字符包裹，得到缓存节点被字符包裹的文本分片；将文本分片按照换行符分割，过滤文本分片中的空行，然后再次用换行符合并，以得到最终的文本分片；获取图schema信息；构建提示模板，其中，所述提示模板包括文本内容和图空间描述信息；将最终的文本分片替换提示模板中的文本内容，并将图schema信息替换提示模板中的图空间描述信息，以得到最终的提示模板；获取图schema信息，包括：通过图数据库语句查询当前图空间的点类型、边类型、点类型的属性、边类型的属性、点类型的属性类型和边类型的属性类型；构造所有点类型的描述文本，将点类型和点类型的属性拼接为包含点类型所有信息的第一字符串；构造所有边类型的描述文本，将边类型和边类型的属性拼接为包含边类型所有信息的第二字符串；将第一字符串和第二字符串拼接成图schema信息；通过LLM查询批量获取文本分片的点信息和边信息，并分别将点信息和边信息缓存到点缓存池和边缓存池，包括：构建提示模板查询语句；根据最终的提示模板构造LLM请求的结构体；通过查询语句请求结构体LLM模型服务器，以得到返回的知识图谱点信息和边信息；将得到的将得到的LLM查询结果按换行符分割，并过滤掉非vertex : 和edge : 开头的语句；分别将vertex语句和edge语句去除头部后用逗号分割，得到点信息数组或边信息数组；将所述点信息数组和边信息数组分别缓存到点缓存池和边缓存池。

基于图数据库的利用LLM从PDF构建知识图谱的方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

基于图数据库的利用LLM从PDF构建知识图谱的方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种耐磨损塑料模具钢及其制备方法

基于数字化控制的纺织印染废水的节能处理工艺

基于数字化控制的涤纶布料的节水印染系统

一种智能球头、应用方法及车辆

一种碳纤维氧化炉送风与回风分配装置

一种建筑整体保温性能检测主体及其检测方法

热门技术领域

快速入口

专利技术资料