← 返回列表

一种基于深度迁移学习的调控变异预测方法

申请号: CN202410233955.5
申请人: 鲁东大学
更新日期: 2026-03-16

专利详细信息

项目 内容
专利名称 一种基于深度迁移学习的调控变异预测方法
专利类型 发明申请
申请号 CN202410233955.5
申请日 2024/3/1
公告号 CN117809742A
公开日 2024/4/2
IPC主分类号 G16B20/20
权利人 鲁东大学
发明人 李铭烈; 周树森; 王庆军; 臧睦君; 刘通; 柳婵娟
地址 山东省烟台市芝罘区红旗中路186号

摘要文本

本发明属于生物信息学领域,涉及一种基于深度迁移学习的调控变异预测方法,其中包括卷积自编码器、多任务学习和迁移学习等技术。该方法的核心思想是在非编码变异数据上预训练模型,通过半监督方法学习非编码变异的底层特征表示能力。包括如下步骤:首先构建源域样本和目标域样本,并对DNA序列进行独热编码;其次使用卷积自编码器,通过多任务学习,训练特征提取器;最后将源域样本知识迁移到目标域,辅助模型在目标域进行预测。本方法采用半监督学习方法进行预训练,极大的保留了源域数据的底层特征,可以有效对候选变异进行筛选,对未来的实验验证具有重要意义。

专利主权项内容

1.一种基于深度迁移学习的调控变异预测方法,其特征在于,将上下文无关的非编码变异视为源域,上下文相关的功能性非编码变异视为目标域,通过迁移学习可以将源域知识迁移到目标域中,使用多任务学习方法在模型预训练时综合考虑模型特征提取能力和模型预测能力,该方法包括DNA序列预处理、模型构建、模型预训练、模型迁移、模型预测五个步骤、其具体步骤如下:步骤1、首先构建源域数据,获得个长度为的非编码区通用变异,并获取对应的标签;其次构建目标域数据,获得个长度为的调控变异,并获取对应的标签;将获得的数据进行独热编码,组成训练数据和测试数据;MPNP步骤2、使用一维卷积自编码器对独热矩阵进行特征压缩,将得到的特征输入前馈神经网络学习特征映射并进行分类,同时将特征输入到一维卷积自解码器进行特征重构;步骤3、使用交叉熵误差计算前馈神经网络的预测结果与真实标签的差异,同时采用均方误差计算一维卷积自动解码器的输出特征与输入特征的差异,并将二者损失混合后进行反向传播训练模型;步骤4、使用步骤3获得的编码器迁移到目标域数据进行特征压缩,并结合前馈神经网络进行训练,为了防止过拟合,编码器不进行微调,只针对新的全连接层训练,保存训练好的模型;步骤5、使用步骤4训练好的模型对目标域测试数据进行预测,获得分类的结果。