← 返回列表
一种信息提取方法、装置、计算机设备和存储介质
申请人信息
- 申请人:金蝶软件(中国)有限公司
- 申请人地址:518000 广东省深圳市南山区科技园科技南十二路2号金蝶软件园A座1-8层
- 发明人: 金蝶软件(中国)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种信息提取方法、装置、计算机设备和存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311707418.1 |
| 申请日 | 2023/12/13 |
| 公告号 | CN117408259A |
| 公开日 | 2024/1/16 |
| IPC主分类号 | G06F40/295 |
| 权利人 | 金蝶软件(中国)有限公司 |
| 发明人 | 姜焰; 宁义双; 宁可; 肖肖 |
| 地址 | 广东省深圳市南山区科技园科技南十二路2号金蝶软件园A座1-8层 |
摘要文本
金蝶软件(中国)有限公司取得“一种透气窗帘布”专利技术,本申请涉及一种信息提取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取并识别目标文档对应的文本信息和文本位置信息;基于上述信息进行特征提取得到对应的特征向量;根据特征向量识别文本信息的各个字符的位置以识别对应的实体,根据特征向量识别各个字符对应的实体类别以识别字符所属的实体的实体类别;将实体分别进行配对,得到多个目标实体对,基于特征向量识别存在关联关系的目标实体对。基于此,首先,在字符级别上同步地、对应地识别实体和实体类别;再者,基于语义特征信息和位置特征信息,高效地、多维度地识别存在语义和位置关联关系的目标实体对,从而提高信息提取的高效性和准确性。
专利主权项内容
1.一种信息提取方法,其特征在于,所述方法包括:获取目标文档,并识别所述目标文档对应的文本信息和文本位置信息;基于所述文本信息和所述文本位置信息进行特征提取得到对应的特征向量;根据所述特征向量识别所述文本信息的各个字符在语义空间中的位置,根据相匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体,根据所述特征向量识别各个字符所对应的实体类别,根据各个字符所对应的实体类别得到字符所属的实体的实体类别;将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对,得到多个目标实体对,基于所述特征向量中的语义特征信息和位置特征信息,识别存在关联关系的目标实体对;其中所述语义特征信息用于表征文本所对应的语义关系,所述位置特征信息用于表征文本中的字符的位置距离关系。