← 返回列表
基于多语义特征融合的人工智能领域实体识别方法及系统
申请人信息
- 申请人:浙江大学
- 申请人地址:310058 浙江省杭州市西湖区余杭塘路866号
- 发明人: 浙江大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于多语义特征融合的人工智能领域实体识别方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410142010.2 |
| 申请日 | 2024/2/1 |
| 公告号 | CN117669574A |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G06F40/295 |
| 权利人 | 浙江大学 |
| 发明人 | 肖俊; 宋哲夫 |
| 地址 | 浙江省杭州市西湖区余杭塘路866号 |
摘要文本
本发明公开了一种基于多语义特征融合的人工智能领域实体识别方法及系统,属于文本实体识别领域。本发明将编码器、双向长短期记忆网络层、注意力融合层和条件随机场层级联形成实体识别模型,通过对编码器中的BERT模型和注意力融合层中的注意力机制进行改进,再结合对条件随机场层中损失函数的优化,显著提高了在人工智能领域中实体识别和关系抽取的准确度,能够提升模型的稳定性和泛化能力。本发明可解决人工智能领域实体识别过程中存在的文本过长、内容复杂、实体与实体之间存在强关联关系等问题,准确实现人工智能领域长文本段落中的实体识别。
专利主权项内容
1.一种基于多语义特征融合的人工智能领域实体识别方法,其特征在于,包括:S1、将人工智能领域的待识别文本输入编码器中,由BERT模型对待识别文本进行分词后将词元序列转换为第一词向量序列,每个第一词向量依次通过多层Transformer编码层进行编码后将所有Transformer编码层输出的特征向量进行拼接,再将拼接向量通过第一全连接层进行降维处理,从而将第一词向量序列映射为第二词向量序列;S2、将第二词向量序列输入双向长短期记忆网络层中,对待识别文本中的上下文语义表征进行捕捉,得到第三词向量序列;S3、将第三词向量序列输入注意力融合层中,以前馈神经网络作为评分函数,计算第三词向量序列中第三词向量之间的语义关联度,并基于语义关联度向每个第三词向量中融入上下文语义信息,得到每个第三词向量对应的上下文向量;每个第三词向量与对应的上下文向量拼接后,通过非线性激活函数进行融合,融合向量通过第二全连接层进行降维处理,从而将第三词向量序列转换为语义增强的第四词向量序列;S4、将第四词向量序列输入条件随机场层中,输出待识别文本中每个词元对应的实体标签。