← 返回列表

为碱基识别模型构建训练数据集的方法、装置及电子设备

申请号: CN202410245961.2
申请人: 北京普译生物科技有限公司
申请日期: 2024/3/5

摘要文本

本公开涉及生物学基因测序领域,公开了一种为碱基识别模型构建训练数据集的方法、装置及电子设备,该方法包括:根据目标核酸序列对应的初始电信号确定目标碱基序列;基于纳米孔测序信号模拟工具,确定目标碱基序列对应的期望电信号;根据期望电信号和初始电信号,确定初始电信号对应的碱基位置分布;根据预设电信号长度和碱基位置分布对初始电信号进行分段,得到多个训练电信号;根据多个训练电信号以及每个训练电信号对应的训练碱基序列,确定碱基识别模型对应的训练数据集,碱基识别模型用于对待识别核酸序列对应的电信号进行碱基识别。通过本公开实施例确定的训练数据集,可以提高碱基识别模型的训练效率,降低训练使用的硬件设备的性能需求。

专利详细信息

项目 内容
专利名称 为碱基识别模型构建训练数据集的方法、装置及电子设备
专利类型 发明申请
申请号 CN202410245961.2
申请日 2024/3/5
公告号 CN117831630A
公开日 2024/4/5
IPC主分类号 G16B30/10
权利人 北京普译生物科技有限公司
发明人 孙琛; 王大千
地址 北京市大兴区北京经济技术开发区荣华中路10号1幢15层1501-3D

专利主权项内容

1.一种为碱基识别模型构建训练数据集的方法,其特征在于,包括:根据目标核酸序列对应的初始电信号,确定目标碱基序列;基于纳米孔测序信号模拟工具,确定所述目标碱基序列对应的期望电信号;根据所述期望电信号和所述初始电信号,确定所述初始电信号对应的碱基位置分布,其中,所述碱基位置分布用于指示所述目标碱基序列中每个碱基在所述初始电信号中的位置;根据预设电信号长度和所述碱基位置分布,对所述初始电信号进行分段,得到多个训练电信号;根据所述多个训练电信号,以及每个所述训练电信号对应的训练碱基序列,确定碱基识别模型对应的训练数据集,其中,所述碱基识别模型用于对待识别核酸序列对应的电信号进行碱基识别。 (更多数据,详见)