← 返回列表

一种企业信息抽取方法、图谱构建方法及系统、存储介质

申请号: CN202311552385.8
申请人: 数据空间研究院
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种企业信息抽取方法、图谱构建方法及系统、存储介质
专利类型 发明申请
申请号 CN202311552385.8
申请日 2023/11/17
公告号 CN117473036A
公开日 2024/1/30
IPC主分类号 G06F16/31
权利人 数据空间研究院
发明人 王建; 孙昕; 王佐成; 李浩; 吕孝忠
地址 安徽省合肥市高新区柏堰科技园创新大道288号工投高新智谷B区

摘要文本

本发明属于信息处理技术领域,尤其涉及一种企业信息抽取方法、图谱构建方法及系统、存储介质。抽取方法包括:抓取财经信息去重后存储于本地数据库内,本地数据库将新增的财经信息送入文本预处理模块后得到财经文本;将需求送入调整模块内的特定任务单元,特定任务单元基于需求和调整模块内的优化单元生成特定任务,大语言模型基于特定任务对财经文本进行关键词抽取形成企业信息;筛选模块计算企业信息与当前特定任务之间的相似度后,将相似度在设定值以上的企业信息输出至技术人员和调整模块的优化单元内计算联合损失函数,优化单元基于联合损失函数来优化特定任务和大语言模型中的参数。本发明能够准确且高效地从财经信息中抽取企业信息。 百度搜索专利查询网

专利主权项内容

1.一种企业信息抽取方法,其特征在于,包括以下步骤:S1,将从各大平台抓取的财经信息去重后存储于本地数据库内,本地数据库将新增的财经信息送入文本预处理模块进行预处理后得到财经文本;S2,将需求A送入调整模块内的特定任务单元,特定任务单元基于需求A和调整模块内的优化单元来生成特定任务,大语言模型基于特定任务从文本预处理模块中顺序调取财经文本,对财经文本进行关键词抽取形成结构化的企业信息;一条企业信息由若干个关键词构成;S3,各企业信息进入筛选模块内,筛选模块计算各条企业信息与当前特定任务之间的相似度后,将相似度在设定值以上的企业信息作为合格企业信息输出至技术人员处;同时,合格企业信息被筛选模块送入调整模块内的优化单元来计算联合损失函数后,回到S2,优化单元基于联合损失函数来优化特定任务和大语言模型中的各种参数,优化参数后的大语言模型基于优化后的特定任务从新的财经文本中抽取关键词以形成结构化的企业信息。