一种适用于同时检测恶意评论和虚假新闻的机器学习方法
摘要文本
本发明提供一种适用于同时检测恶意评论和虚假新闻的方法,通过选取单独的恶意评论或虚假新闻检测中可能有效的可解释性参数集合以及对应的分类模型集合进行两两组合,并基于现有恶意评论资料集合A和虚假新闻资料集合B构成的合集C进行训练和验证,采用评估值=准确率+精确率+召回率+F1的评估指标对结果进行筛选,得到了一种可解释性参数与分类模型的优化组合,使其无论用于恶意评论还是虚假新闻的检测,都能获得较好的检测效果。
申请人信息
- 申请人:北京远禾科技有限公司
- 申请人地址:100085 北京市海淀区马连洼北路8号C座6层603室
- 发明人: 北京远禾科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种适用于同时检测恶意评论和虚假新闻的机器学习方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311235587.X |
| 申请日 | 2023/9/22 |
| 公告号 | CN117332084A |
| 公开日 | 2024/1/2 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 北京远禾科技有限公司 |
| 发明人 | 谢成; 杨群; 周永鹏; 杨铁龙 |
| 地址 | 北京市海淀区马连洼北路8号C座6层603室 |
专利主权项内容
1.一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,其特征在于, 所述方法包括以下步骤:一、构建现有恶意评论资料集合A和虚假新闻资料集合B在现有恶意评论资料集合A和虚假新闻资料集合B的基础上,对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据,其中伤害数据对应于恶意评论,无伤害数据对应于非恶意评论;对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据,其中伤害数据对应于虚假新闻,无伤害数据对应于真实新闻;二、构建混合文本资料集合C从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C;三、资料清理对集合C中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;四、待测试特征的提取从集合C中提取出以下7种类别的待测试特征:基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数这6个特征;情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;词向量与段落向量特征类别c,包括由gensim模块提取出的50个Word2vec特征和50个Doc2vec特征;BERT向量特征类别d,包括768个特征;混合特征类别e,e为a,b两种类别的特征集合,包括15个特征;混合特征类别f,f为a,b,c三种类别的特征集合,包括115个特征;混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;五、构建训练集和测试集将集合C拆分为训练集和测试集两部分,其中测试集由相同数量的伤害数据和无伤害数据组成,训练集则为集合C排除测试集之后剩余的数据集合;六、选择待测试的分类模型选择LR、SVM、MLP、XGBoot 4种模型作为待测试的分类模型;七、确定最优特征与分类模型的组合基于步骤五的训练集和测试集,将a、b、c、d、e、f、g七组特征分别作为LR、SVM、MLP、XGBoot四个模型的输入特征进行训练和测试,获得28个评估值组成的评估值集合E={ee, …, e},其中每个评估值=准确率+精确率+召回率+F1,选取集合E中最大的值对应的特征类别和分类模型作为最优特征与分类模型的组合;1, 228八、判断当前文本是否为恶意评论或虚假新闻基于步骤七选取的最优特征与分类模型的组合,提取当前文本中对应的特征并输入对应训练后的分类模型,判断出当前文本是否为恶意评论或虚假新闻。