← 返回列表

基因测序训练数据集的增强方法及装置、设备及存储介质

申请号: CN202311642892.0
申请人: 深圳赛陆医疗科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 基因测序训练数据集的增强方法及装置、设备及存储介质
专利类型 发明授权
申请号 CN202311642892.0
申请日 2023/12/4
公告号 CN117351485B
公开日 2024/3/8
IPC主分类号 G06V20/69
权利人 深圳赛陆医疗科技有限公司
发明人 周祎楠; 彭宽宽; 陈伟; 王谷丰; 赵陆洋
地址 广东省深圳市光明区凤凰街道塘尾社区恒泰裕大厦3栋3A-1101

摘要文本

深圳赛陆医疗科技有限公司获取“一种透气窗帘布”专利技术,本发明公开一种基因测序训练数据集的增强方法及装置、设备及存储介质,所述方法包括 : 获取多次循环中的荧光图像,形成图像数据集;从所述图像数据集中,分别选取与多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组,其中每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型;针对每一所述待截取荧光图像组,对每张荧光图像进行截取,分别得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像;对与不同碱基类型对应的多张所述子荧光图像进行拼接,得到拼接后的样本荧光图像,将所述样本荧光图像加入训练样本集中。

专利主权项内容

1.一种基因测序训练数据集的增强方法,其特征在于,包括:获取多次循环中的荧光图像,形成图像数据集;从所述图像数据集中,分别选取与多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组,其中每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型;针对每一所述待截取荧光图像组,对每张荧光图像进行截取,分别得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像;对与不同碱基类型对应的多张所述子荧光图像进行拼接,得到拼接后的样本荧光图像,将所述样本荧光图像加入训练样本集中;其中,所述样本荧光图像中子荧光图像分别是A、C、G、T碱基类型的荧光图像各一张;获取所述样本荧光图像中每张子荧光图像对应的标签图像,基于所述标签图像分别截取各子荧光图像对应的子标签图像并拼接,得到所述样本荧光图像的标签图像;其中,在所有子荧光图像中,至少部分子荧光图像的图像尺寸是基于包括宽度及长度的随机数对产生的;所述针对每一所述待截取荧光图像组,对每张荧光图像进行截取,分别得到对应的子荧光图像,包括:获取预设拼接方式,所述预设拼接方式包括预设总子图像数量、预设宽度尺寸、预设长度尺寸;生成不大于预设总子图像数量的随机数对,其中在预设拼接方式中位于同一行上的随机数对对应的长度之和小于或等于预设长度尺寸,及位于同一列上的随机数对对应的宽度之和小于或等于预设宽度尺寸;基于生成的随机数对,确定预设拼接方式中每个位置处的图像尺寸;基于每个位置处的图像尺寸,随机选取每一所述待截取荧光图像组中的荧光图像进行截取,得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像。