← 返回列表

一种文本特征分析的方法和装置

申请号: CN201711459613.1
申请人: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
申请日期: 2017年12月28日

摘要文本

本发明公开了一种文本特征分析的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取目标文本中的特征词,确定所述特征词与所述目标文本中各词语之间的语法结构;根据所述语法结构以及预设的评价对象语法结构提取规则,确定所述目标文本中与所述特征词相应的评价对象;计算所述特征词与所述评价对象的特征值,得到所述目标文本的特征值,确定所述目标文本的特征。该实施方式依据特征词与各词语的语法结构,提高了评价对象的覆盖范围以及获取准确率,以及确定目标文本特征的准确性。

专利详细信息

项目 内容
专利名称 一种文本特征分析的方法和装置
专利类型 发明授权
申请号 CN201711459613.1
申请日 2017年12月28日
公告号 CN109977392B
公开日 2024年2月9日
IPC主分类号 G06F40/253
权利人 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
发明人 王鑫; 董浩
地址 北京市海淀区知春路76号8层; 北京市大兴区北京经济技术开发区科创十一街18号C座2层201室

专利主权项内容

1.一种文本特征分析的方法,其特征在于,包括:获取目标文本中的特征词,确定所述特征词与所述目标文本中各词语之间的语法结构;根据所述语法结构以及预设的评价对象语法结构提取规则,确定所述目标文本中与所述特征词相应的评价对象;其中,当特征词在句中充当谓语时,其评价对象为谓语所修饰的词语;当特征词在句中充当非谓语成分时,需要先确定与其相关联的谓语,之后再根据谓语确定评价对象;当存在与所述评价对象相应的并列词语时,确定所述并列词语为第五评价对象;或当存在与所述评价对象相应的定语时,添加与所述定语相应的非特征词至所述评价对象中,生成第六评价对象;根据所得评价对象在所述目标文本中不同位置的重要程度确定权重,计算所述特征词与所得评价对象的特征值,得到所述目标文本的特征值,确定所述目标文本的特征;其中,所得评价对象为所述评价对象和所述第五评价对象、所述评价对象和所述第六评价对象、所述评价对象和所述第五评价对象和所述第六评价对象中的一种。