一种跨病种迁移时病种数据结构化的方法及系统
摘要文本
本发明涉及一种跨病种迁移时病种数据结构化的方法及系统;该方法包括:S1、构建问题库;S2、输出目标病种BERT语言模型和其它病种BERT语言模型;S3、过滤出目标病种句;S4、将目标病种句输入至目标病种BERT语言模型中,输出目标病种句向量;S5、得到目标病种已标注语料;S6、构造训练数据,将训练数据输入至初始分类模型中进行训练,得到训练分类模型;S7、得到目标病种结构化数据。本发明通过设置问题库,将病历和问题库结合输入至训练分类模型中,根据训练分类模型中的预测结果来提供结构化信息,从而得到较为精确和一致的病历数据整合结果,通过小批量样本标注以实现大批量样本标注的技术效果,能够满足跨病种迁移时的需求。
申请人信息
- 申请人:神州医疗科技股份有限公司
- 申请人地址:100080 北京市海淀区颐和园路2号未来科技大厦主楼12层1201室
- 发明人: 神州医疗科技股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种跨病种迁移时病种数据结构化的方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410221624.X |
| 申请日 | 2024/2/28 |
| 公告号 | CN117809792A |
| 公开日 | 2024/4/2 |
| IPC主分类号 | G16H10/60 |
| 权利人 | 神州医疗科技股份有限公司 |
| 发明人 | 白焜太; 杨雅婷; 宋佳祥; 刘硕; 许娟; 史文钊 |
| 地址 | 北京市海淀区颐和园路2号未来科技大厦主楼12层1201室 |
专利主权项内容
1.一种跨病种迁移时病种数据结构化的方法,其特征在于,包括:S1、获取原始病历文本集,将原始病历文本集中包含的原始病历文本进行拆分和标注,得到是/否型的标注数据,基于标注数据,构建问题库;S2、从原始病历文本集中获取目标病种原始病历文本集和其它病种原始病历文本集,将目标病种原始病历文本集和其它病种原始病历文本集分别进行预处理,分别得到目标病种原始文本训练集和其它病种原始文本训练集,采用目标病种原始文本训练集和其它病种原始文本训练集分别对BERT语言模型进行训练,分别输出目标病种BERT语言模型和其它病种BERT语言模型;S3、获取目标病种病历文本,将目标病种病历文本进行预处理,得到预处理后的目标病种文本,将目标病种文本进行拆分,得到拆分子句,将拆分子句作为输入值分别输入至目标病种BERT语言模型和其它病种BERT语言模型中计算PPL,得到目标病种PPL和其它病种PPL,计算目标病种PPL和其它病种PPL之间的PPL差值,并与预设的PPL差值阈值进行比较,过滤出目标病种句;S4、将目标病种句输入至目标病种BERT语言模型中,输出目标病种句向量;S5、将目标病种句向量进行文本聚类,得到不同类别的目标病种待标注语料集,在每个类别中随机抽取预设数量的目标病种待标注语料,对目标病种待标注语料进行标注,得到目标病种已标注语料;S6、基于目标病种已标注语料以及利用权重样本比算法筛选出的其它病种的标注数据,构造训练数据,将训练数据输入至初始分类模型中进行训练,得到训练分类模型;S7、将目标病种文本和问题库中的标注数据分别输入至训练分类模型中,分别得到目标病种文本向量和问题向量,将目标病种文本向量和问题向量进行余弦相似度计算,召回分数超过预设阈值的问题,并将问题输入至训练分类模型中进行判断并输出0/1型的结构化结果,根据预设格式进行格式化输出,得到目标病种结构化数据。