← 返回列表

基于弱监督的农业社会化销售服务用户评价数据分析方法

申请号: CN202311768879.X
申请人: 江西农业大学; 江西省科学院应用物理研究所
申请日期: 2023/12/21

摘要文本

本发明属于自然语言处理技术领域,具体涉及一种基于弱监督的农业社会化销售服务用户评价数据分析方法,首先获取农业社会化销售服务用户评价数据作为语料数据集;句法依存与基于情感词典的情感值判断方法相结合,得到各个评价维度上的得分情况,以作为伪标签;构建一个粗细粒度联合分析的多标签多分类的农业社会化销售服务分析模型,并在伪标签数据集上进行弱监督训练,训练完毕的农业社会化销售服务分析模型直接对社会化销售服务的用户评价数据进行分析,得出不同评价维度上的满意程度。本发明使用深度学习对社会化销售服务的评价进行分析,得出购买者对服务主体在粗粒度以及细粒度的不同评价维度上的满意程度。

专利详细信息

项目 内容
专利名称 基于弱监督的农业社会化销售服务用户评价数据分析方法
专利类型 发明授权
申请号 CN202311768879.X
申请日 2023/12/21
公告号 CN117436446B
公开日 2024/3/22
IPC主分类号 G06F40/289
权利人 江西农业大学; 江西省科学院应用物理研究所
发明人 易文龙; 张丽; 肖意风; 熊叶; 杨玲玲; 翁丽明; 张莹; 程香平
地址 江西省南昌市经济技术开发区志敏大道1101号; 江西省南昌市高新技术开发区昌东大道7777号

专利主权项内容

1.基于弱监督的农业社会化销售服务用户评价数据分析方法,其特征在于,步骤如下:步骤一:通过增量式爬虫获取农业社会化销售服务用户评价数据并进行数据清洗与预处理,得到语料数据集;步骤二:使用主题模型从语料数据集中识别出潜在的主题及主题关键词,并把识别出的主题作为语料数据集的评价维度;步骤三:从语料数据集中挖掘频繁项,从频繁项与主题关键词之中构建出领域属性词典和领域情感词典;步骤四:扩充领域情感词典,并把领域情感词典和公共情感词典融合,得到更完善的情感词典;步骤五:将句法依存与基于情感词典的情感值判断方法相结合,得到每一个用户评价在各个评价维度上的得分情况,以作为语料数据集的伪标签;步骤六:构建一个粗细粒度联合分析的多标签多分类的农业社会化销售服务分析模型;所述农业社会化销售服务分析模型包括文本特征提取网络、用于抽取标签间关联的图注意力网络和多任务分类网络;农业社会化销售服务分析模型采用共享层和独占层结合的结构,其中文本特征提取网络和图注意力网络均属于共享层,共享层的参数由所有任务共享;多任务分类网络属于独占层;步骤七:使农业社会化销售服务分析模型在伪标签数据集上进行弱监督训练,训练完毕的农业社会化销售服务分析模型直接对社会化销售服务的用户评价数据进行分析,得出购买者对服务主体在粗粒度以及细粒度的不同评价维度上的满意程度;首先从整个伪标签数据集中抽取部分样本进行人工更正标签,把人工更正标签的样本作为纯净训练集,使用纯净训练集训练农业社会化销售服务分析模型;其余伪标签数据集使用FastText模型进行五折交叉验证,从而得到每个样本的预测值;求得每个标签类别的预测值的均值,以此作为阈值,仅在某标签类别上的预测值大于阈值时,FastText模型预测伪标签是属于这个标签类别的;进一步得到估计噪声标签和真实标签的联合分布:

;其中表示样本编号,表示伪标签的标签类别总数,表示其中一个标签类别;若伪标签的情感极性分为积极、消极、矛盾三种,则表示该伪标签下有三种标签类别,=3;是m行m列的计数矩阵,计数矩阵的值是从样本中统计得到的,列表示伪标签在标签类别j上的个数,行表示FastText模型预测值为标签类别j的个数;该矩阵使用下标/>与来指定矩阵中的一个值,若/>,/>,则/>表示伪标签为1,FastText模型预测的标签也为1的样本个数;/>表示伪标签为i的样本总个数;/>是标定计数矩阵,对标定计数矩阵进行正则化,正则化之后得到估计噪声标签和真实标签的联合分布矩阵/>;然后即选取联合分布矩阵中最大的概率对应的下标与人工标签不一致的样本作为低置信度样本;FastText、农业社会化销售服务分析模型、事先定义的标签函数三者将对低置信度样本进行重新预测,把FastText、农业社会化销售服务分析模型、事先定义的标签函数的预测值均送入标签模型中,标签模型输出最终的预测结果,把最终预测结果作为低置信度样本的矫正标签;矫正标签之后的低置信度样本将与高置信度样本一起从伪标签数据集中抽取出,放入到纯净数据集中训练农业社会化销售服务分析模型,持续这个过程,直到伪标签数据集中的数据全部进入了纯净训练集为止。imjm 详见官网: