← 返回列表

碱基识别方法及装置、基因测序仪及存储介质

申请号: CN202410021676.2
申请人: 深圳赛陆医疗科技有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 碱基识别方法及装置、基因测序仪及存储介质
专利类型 发明授权
申请号 CN202410021676.2
申请日 2024/1/8
公告号 CN117523559B
公开日 2024/3/29
IPC主分类号 G06V20/69
权利人 深圳赛陆医疗科技有限公司
发明人 彭宽宽; 陈伟; 周祎楠; 王谷丰; 赵陆洋
地址 广东省深圳市光明区凤凰街道塘尾社区恒泰裕大厦3栋3A-1101

摘要文本

本发明公开一种基于半监督学习的碱基识别方法及装置、基因测序仪及存储介质,所述方法包括 : 获取多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于待测荧光图像形成待测输入图像数据;将待测输入图像数据作为训练后的碱基识别模型的输入,并通过训练后的碱基识别模型输出待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;其中训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像,所述样本荧光图像对应的碱基类型标签图、对应的第一掩膜图及第二掩膜图。。来源:马 克 团 队

专利主权项内容

1.一种基于半监督学习的碱基识别方法,其特征在于,包括:获取测序芯片上多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于所述待测荧光图像形成待测输入图像数据;其中所述待测荧光图像包括多种碱基类型对应的荧光图像;将所述待测输入图像数据作为训练后的碱基识别模型的输入,并通过所述训练后的碱基识别模型输出所述待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;其中所述训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像、以及所述样本荧光图像对应的碱基类型标签图,每一所述训练样本对应的训练标签还包括所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图, 其中所述第一掩膜图用于标记所述样本荧光图像中有碱基类型标签的碱基信号采集单元的位置;所述第二掩膜图用于标记所述样本荧光图像中没有碱基类型标签的碱基信号采集单元的位置;其中所述方法还包括:获取训练数据集;从所述训练数据集中获取训练样本作为输入训练样本,基于不同的数据增强方式对所述输入训练样本处理,得到所述输入训练样本对应的多组处理后的训练样本,基于所述输入训练样本对应的多组处理后的训练样本,形成所述输入训练样本对应的多组输入数据;构建初始的碱基识别模型,将所述输入训练样本对应的多组输入数据分别作为所述碱基识别模型的输入,得到每组输入数据对应的碱基识别数据,通过所述训练数据集对所述初始的碱基识别模型进行迭代训练,直至损失函数收敛,得到训练后的所述碱基识别模型;其中损失函数包括:计算调整后的每组输入数据对应的碱基识别数据与所述输入训练样本对应的碱基类型标签图之间的第一损失值的第一损失函数,其中所述调整后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第一掩膜图对每组输入数据对应的碱基识别数据进行调整得到的;及计算处理后的每两组输入数据对应的碱基识别数据间的第二损失值的第二损失函数,其中所述处理后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第二掩膜图对每组输入数据对应的碱基识别数据进行处理得到的。