一种面向热点话题的基于自监督表示学习的观点挖掘方法

申请号: CN202410226614.5

申请人: 南京邮电大学

更新日期: 2026-03-17

摘要文本

南京邮电大学取得“一种透气窗帘布”专利技术，本发明属于自然语言处理技术领域，公开了一种面向热点话题的基于自监督表示学习的观点挖掘方法，包括：获取文本语料库并进行数据预处理；语料中的文本用词袋模型进行表示；对文档的词袋表示进行数据增强得到成对的相似文档向量表示；将成对的相似文档向量表示输入编码器网络得到输出，作为输入文档的观点分布的向量表示；从狄利克雷分布中采样获得观点分布的先验；最小化编码器网络输出的不变性、方差、协方差正则化损失和狄利克雷先验分布对齐的先验损失，以此进行模型的训练。本发明利用自监督学习的优势，得到了文档的观点表示，获得了高质量的观点，挖掘出了多样的观点表示。

专利主权项内容

1.一种面向热点话题的基于自监督表示学习的观点挖掘方法，其特征在于：所述观点挖掘方法包括以下步骤：步骤1、对获取到的社交媒体评论文本进行数据预处理，根据词袋模型得到文档采用TF-IDF表示法的词袋模型表示；步骤2、将步骤1中得到的词袋模型表示进行数据增强，以获得成对的相似文档向量表示/>；步骤3、将步骤2获得的增强后的成对的相似文档向量表示作为编码器网络的输入，得到编码器网络的输出，该输出表示为输入文档的观点分布的向量表示；步骤4、通过最小化编码器网络输出的不变性、方差、协方差正则化损失和狄利克雷先验分布对齐的先验损失，约束模型的参数变化，不断迭代至损失函数收敛，以确保模型的稳定性和观点挖掘的准确性。

专利申请信息

项目	内容
专利名称	一种面向热点话题的基于自监督表示学习的观点挖掘方法
专利类型	发明申请
申请号	CN202410226614.5
申请日	2024/2/29
公告号	CN117808104A
公开日	2024/4/2
IPC主分类号	G06N5/04
权利人	南京邮电大学
发明人	王睿; 刘星; 任鹏; 王延安; 常舒予; 黄海平
地址	江苏省南京市鼓楼区新模范马路66号

一种面向热点话题的基于自监督表示学习的观点挖掘方法

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种面向热点话题的基于自监督表示学习的观点挖掘方法

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种用于测试大尺寸图像传感器组件的光学系统

一种纳米铁强化磺胺废水厌氧消化的方法

一种噻唑烷二酮类HDAC抑制剂、制备方法及应用

一种提高二维电子海图显示效率的方法

一种基于物联网的触摸式旋钮屏管控系统及方法

一种用于水生态调查评估的浮游生物采样装置

热门技术领域

快速入口

专利技术资料