← 返回列表

文本标注方法和装置、计算机设备及存储介质

申请号: CN202311316116.1
申请人: 鹏城实验室
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 文本标注方法和装置、计算机设备及存储介质
专利类型 发明申请
申请号 CN202311316116.1
申请日 2023/10/10
公告号 CN117540730A
公开日 2024/2/9
IPC主分类号 G06F40/279
权利人 鹏城实验室
发明人 方滨兴; 余跃; 贾焰; 王晖; 顾钊铨; 梁栩健; 徐春香; 张凡
地址 广东省深圳市南山区兴科一街2号

摘要文本

鹏城实验室取得“一种透气窗帘布”专利技术,本申请实施例提供了一种文本标注方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:获取原始文本和原始标注信息;对原始文本分类得到自动标注信息;接收由标注端对原始文本扩展得到同义文本,根据自动标注信息对同义文本筛选的扩展文本;将扩展文本和原始文本拼接得到候选文本,将自动标注信息和原始标注信息拼接得到候选标注信息;获取候选文本中候选标注信息的标注类别数量;根据标注类别数量对候选标注信息筛选得到目标标注信息;获取目标标注信息的标注比例;若标注比例低于预设比例阈值,生成反馈信息至专家系统以接收专家标注信息;将专家标注信息和候选文本组合得到目标文本数据。本申请实施例能够提高文本标注质量。

专利主权项内容

1.一种文本标注方法,其特征在于,所述方法包括:获取原始文本数据;其中,所述原始文本数据包括:原始文本和所述原始文本的原始标注信息;对所述原始文本进行分类处理,得到自动标注信息;接收扩展文本;其中,所述扩展文本由标注端对所述原始文本的内容进行同义扩展得到同义文本,并根据所述自动标注信息对所述同义文本中筛选得到;将所述扩展文本和所述原始文本进行拼接处理得到候选文本,将所述自动标注信息和所述原始标注信息进行拼接处理得到所述候选文本的候选标注信息;获取每一所述候选文本中同一类所述候选标注信息的标注数量,得到标注类别数量;根据所述标注类别数量对所述候选标注信息进行筛选处理,得到目标标注信息;获取所述目标标注信息的标注比例;若所述标注比例低于预设比例阈值,生成反馈信息至预设的专家系统,以接收专家标注信息;将所述专家标注信息和所述候选文本进行组合,得到目标文本数据。