← 返回列表
一种用于专利的生成式检索方法及系统
申请人信息
- 申请人:知呱呱(天津)大数据技术有限公司
- 申请人地址:300221 天津市河西区黑牛城道南侧四信大厦1号楼806A
- 发明人: 知呱呱(天津)大数据技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种用于专利的生成式检索方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311732921.2 |
| 申请日 | 2023/12/18 |
| 公告号 | CN117421393A |
| 公开日 | 2024/1/19 |
| IPC主分类号 | G06F16/33 |
| 权利人 | 知呱呱(天津)大数据技术有限公司 |
| 发明人 | 谢鑫; 徐青伟; 范娥媚; 裴非; 严长春 |
| 地址 | 天津市河西区黑牛城道南侧四信大厦1号楼806A |
摘要文本
知呱呱(天津)大数据技术有限公司取得“一种透气窗帘布”专利技术,本申请公开了一种用于专利的生成式检索方法及系统,方法结合专利文本特点以及专利的IPC多级分类体系进行统一融合编码,并设计综合损失函数优化训练模型至收敛,通过训练好的生成式专利编码模型对专利库中的所有文档进行专利编码,在专利检索阶段利用训练好的生成式专利编码模型对待查询文本进行查询编码,基于查询编码和专利编码在专利编码库中执行检索匹配,排序后返回结果。本发明通过预编码机制,结合大规模索引数据库,能够有效减少检索服务计算、降低服务延时,有效结合了传统检索方法的效率和深度模型语义理解的优点,提升了大规模专利检索的查全率和查准率。
专利主权项内容
1.一种用于专利的生成式检索方法,其特征在于,所述方法包括S1模型训练、S2专利编码、S3查询编码、S4检索匹配;S1模型训练,以专利库中的专利文本和IPC多级分类数据为基础构建训练数据集,以预训练语言模型为基础并结合码本数据结构,以重构损失、IPC损失和承诺损失结合的综合损失函数进行训练模型,执行训练直至收敛得到专利文本语义标识编码模型;S2专利编码,利用训练至收敛的专利文本语义标识编码模型,对专利库中的所有专利进行语义标识编码,将生成的标识序列编码数据存储到索引数据库;S3查询编码,利用训练至收敛的专利文本语义标识编码模型,对用户输入的查询文本进行编码,生成语义标识序列;S4检索匹配,应用基于树的最长匹配算法,在专利编码索引库中检索与查询匹配的专利,按照相似度排序后返回相似度最高的Top-K结果。