基于文本分类模型对桥梁检评文本的自动分类方法
摘要文本
本申请提供一种基于文本分类模型对桥梁检评文本的自动分类方法,包括:获取若干篇桥梁检评文本;针对每篇桥梁检评文本进行分句处理得到若干条文本语句;对桥梁检评文本进行检评类型的标注得到检评类型标签,检评类型包括:病害、养护、检测和结构;对文本分类模型中的Bert模型、词汇嵌入模块中的神经网络和特征融合模型进行训练:基于包括训练完成的Bert模型,词汇嵌入模块中的神经网络和特征融合模型、以及被冻结的词汇嵌入模块中的向量化部分、关键词提取模块,确定目标桥梁检评文本的检评类型,既构建了桥梁检评领域的文本标注数据集,又探索了桥梁检评领域内的长文本分类技术。
申请人信息
- 申请人:交通运输部公路科学研究所
- 申请人地址:100088 北京市海淀区西土城路8号
- 发明人: 交通运输部公路科学研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410073747.3 |
| 申请日 | 2024/1/18 |
| 公告号 | CN117591674A |
| 公开日 | 2024/2/23 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 交通运输部公路科学研究所 |
| 发明人 | 杨雷; 韦韩; 龚尚文; 张劲泉; 程寿山; 刘刚 |
| 地址 | 北京市海淀区西土城路8号 |
专利主权项内容
1.一种基于文本分类模型对桥梁检评文本的自动分类方法,其特征在于,所述文本分类模型包括Bert模型、词汇嵌入模块、关键词提取模块、特征融合模型,所述词汇嵌入模块中的向量化部分和关键词提取模块被冻结,所述Bert模型、词汇嵌入模块中的神经网络和所述特征融合模型为待训练模型,所述的自动分类方法,包括:获取若干篇桥梁检评文本;针对每篇桥梁检评文本进行分句处理得到若干条文本语句;对所述桥梁检评文本进行检评类型的标注得到检评类型标签,所述检评类型包括:病害、养护、检测和结构;基于如下步骤,对所述文本分类模型中的Bert模型、词汇嵌入模块中的神经网络和特征融合模型进行训练:将每篇桥梁检评文本对应的若干条文本语句输入到Bert模型中进行向量化处理,得到每条文本语句对应的语义特征向量,并根据所有语义特征向量,计算综合语义特征向量;对每篇桥梁检评文本对应的若干条文本语句进行分词处理得到若干分词结果并在预先构建的词汇库中查询,若存在,则将对应的分词结果输入到词汇嵌入模块中由所述向量化部分进行向量化处理以及由所述神经网络进行多分词融合处理,得到每篇桥梁检评文本对应的嵌入分词向量;将每篇桥梁检评文本输入到关键词提取模块中计算所述检评类型的关键词覆盖率;将每篇桥梁检评文本对应的综合语义特征向量、嵌入分词向量、关键词覆盖率输入到特征融合模型中进行融合得到融合概率值;基于所述检评类型标签和所述融合概率值,对所述Bert模型、词汇嵌入模块中的神经网络和特征融合模型进行训练,直至训练完成;基于包括所述训练完成的所述Bert模型,所述词汇嵌入模块中的神经网络和所述特征融合模型、以及被冻结的所述词汇嵌入模块中的向量化部分、关键词提取模块,确定目标桥梁检评文本的检评类型。