← 返回列表

一种基于深度学习的单病种电子病历数据库构建方法

申请号: CN202311749633.8
申请人: 南京江北新区生物医药公共服务平台有限公司
申请日期: 2023/12/19

摘要文本

本发明公开了一种基于深度学习的单病种电子病历数据库构建方法,包括以下步骤:步骤1:构建单病种数据库指标;步骤2:构建数据采集模块,并构建单病种结构化模型预训练数据集;步骤3:使用步骤2数据采集模块,构建单病种结构化模型微调数据集;步骤4:使用步骤2得到的预训练数据集对ERNIE‑Health模型进行专项预训练;步骤5:使用通用信息提取框架加载步骤4的ERNIE‑Health模型构建单病种结构化模型,进行微调训练后封装成数据库指标提取模块;步骤6:将各个模块封装成系统,实现构建单病种电子病历结构化数据库功能。本发明可以显著提高数据转化效率,有效构建电子病历数据库。

专利详细信息

项目 内容
专利名称 一种基于深度学习的单病种电子病历数据库构建方法
专利类型 发明授权
申请号 CN202311749633.8
申请日 2023/12/19
公告号 CN117438025B
公开日 2024/3/22
IPC主分类号 G16H10/60
权利人 南京江北新区生物医药公共服务平台有限公司
发明人 黄璐; 崔秋季; 徐晓岚; 李郭成; 阚苏立; 姚继龙; 周瑞宁; 吴辰凌
地址 江苏省南京市江北新区龙山南路141号化学之光B栋4、5、6、7层

专利主权项内容

1.一种基于深度学习的单病种电子病历数据库构建方法,其特征在于,包括以下步骤:步骤1:根据疾病类型构建单病种数据库指标;步骤2:构建数据采集模块,使用数据采集模块得到高质量临床电子病历和疾病治疗指南,构建单病种结构化模型预训练数据集;步骤3:使用步骤2所述数据采集模块,得到小样本的单病种患者电子病历,基于步骤1所述数据库指标,对单病种患者电子病历进行标注,构建单病种结构化模型微调数据集;步骤4:使用步骤2得到的预训练数据集对ERNIE-Health模型进行专项预训练;步骤5:构建通用信息提取框架,所述通用信息提取框架是支持多任务统一的文本到结构的生成框架,通过结构化模式提示器,把目标抽取的Schema信息转换成“线索词”,将各类信息抽取任务统一成“Prompt+文本”的形式作为输入,用不同的Prompt代表不同任务,输出结构化抽取语言的形式,使得模型的输出结构针对不同任务都是一致的,公式如下:UIE表示通用信息提取框架模型,它由Transformer的Encoder和Decoder组成,s表示结构化模式提示器,x表示需要输入的原始句子,输出y就是采用结构化抽取语法描述的结构化数据,其中形式如下:具体来说,首先将输入至Encoder,得到每一个token的隐层表示,形式化表示如下:H=Encoder(s, s, …s, x, x, …x)12|s|12|x|其中Encoder(·)是Transformer编码器,接下来使用隐层表示在Decoder端生成目标结构化信息,表示如下所示:其中Decoder(·)是Transformer解码器;使用所述通用信息提取框架加载步骤4预训练后的ERNIE-Health模型构建单病种结构化模型,通过步骤3标注的微调数据集对模型进行微调训练,将训练好的模型与东部中心单病种数据库进行封装,得到数据库指标提取模块;步骤6:将数据采集模块与数据库指标提取模块进行封装,形成统一的单病种电子病历结构化系统,实现单病种电子病历结构化数据库构建功能。