← 返回列表

一种文本分类方法及装置

申请号: CN202311342239.2
申请人: 航天信息股份有限公司
申请日期: 2023/10/17

摘要文本

本申请公开了一种文本分类方法及装置,该方法包括第一设备可以根据预设的文本编码器对获取的目标文本信息进行编码,获得该目标文本信息对应的第一向量。第一设备可以根据第一向量从向量检索库中确定与第一向量的相似度最大的目标向量。其中,相似度的最大值大于预设的第一阈值。目标向量是根据多个与目标向量对应的文本类别相同的相似向量生成的。第一设备可以将目标向量对应的文本类别作为目标文本信息的文本类别。采用该方法,可以增加用于训练模型的数据,从而提高文本分类的准确性。同时,由于目标向量是根据多个相似向量生成的,将目标向量对应的文本类别作为目标文本信息对应的文本类别,可以进一步的提高文本分类的准确性。 关注公众号专利查询网

专利详细信息

项目 内容
专利名称 一种文本分类方法及装置
专利类型 发明申请
申请号 CN202311342239.2
申请日 2023/10/17
公告号 CN117708322A
公开日 2024/3/15
IPC主分类号 G06F16/35
权利人 航天信息股份有限公司
发明人 乔振浩; 徐书豪; 王斌斌; 王亚平; 刘振宇; 王志刚
地址 北京市海淀区杏石口路甲18号

专利主权项内容

1.一种文本分类方法,其特征在于,所述方法包括:第一设备获取目标文本信息;根据预设的文本编码器对所述目标文本信息进行编码,获得第一向量,所述第一向量对应于所述目标文本信息;根据所述第一向量从向量检索库中确定目标向量,所述目标向量为所述向量检索库中与所述第一向量的相似度最大的向量,且所述目标向量与所述第一向量的相似度大于预设的第一阈值,所述目标向量是根据多个相似向量生成的,所述相似向量对应的文本类别与所述目标向量对应的文本类别相同;将所述目标向量对应的文本类别作为所述目标文本信息的文本类别。