← 返回列表

基于XML文档的索引词提取方法、装置、终端及介质

申请号: CN202311384092.3
申请人: 雅昌文化(集团)有限公司; 北京雅昌艺术印刷有限公司; 上海雅昌艺术印刷有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 基于XML文档的索引词提取方法、装置、终端及介质
专利类型 发明申请
申请号 CN202311384092.3
申请日 2023/10/24
公告号 CN117349472A
公开日 2024/1/5
IPC主分类号 G06F16/81
权利人 雅昌文化(集团)有限公司; 北京雅昌艺术印刷有限公司; 上海雅昌艺术印刷有限公司
发明人 肖辉; 唐小兴; 廖晓华
地址 广东省深圳市南山区深云路19号; 北京市顺义区高丽营镇金马园达盛路3号; 上海市嘉定区菊园新区嘉罗公路1022号

摘要文本

雅昌文化(集团)有限公司; 北京雅昌艺术印刷有限公司; 上海雅昌艺术印刷有限公司取得“一种透气窗帘布”专利技术,本发明公开一种基于XML文档的索引词提取方法、装置、终端及介质,所述方法包括:获取预先配置的所要提取的至少一个标签名称,组成配置表;创建空白的索引词清单;从XML文档的根节点开始读取标签;判断当前标签的名称是否存在于配置表内,若结果为是,则读取当前标签的内容;若结果为否,则忽略当前标签并读取下一标签;读取当前标签所在的页面并计算所在区域,生成页码标识;将当前标签内容及对应的页码标识作为一行文本追加到索引词清单的末尾。本发明通过读取当前标签所在的页面并计算所在区域并生成页码标识,不用另外去创建索引、标记引,提取效率高,可以生成索引词所在页面区域位置信息,便于后续更精确的检索。 (来 自 专利查询网)

专利主权项内容

1.一种基于XML文档的索引词提取方法,其特征在于,包括:步骤S10:获取预先配置的所要提取的至少一个标签名称,组成配置表;步骤S20:创建空白的索引词清单;步骤S30:从XML文档的根节点开始读取标签;步骤S40:判断当前标签的名称是否存在于所述配置表内,若结果为是,则读取当前标签的内容;若结果为否,则忽略当前标签并读取下一标签;步骤S50:在读取当前标签的内容时,同时读取当前标签所在的页面并计算所在区域,生成页码标识;其中,页面被预先划分为多个区域;步骤S60:将当前标签内容及对应的页码标识作为一行文本追加到所述索引词清单的末尾,然后读取下一标签。