一种单细胞转录组测序数据插补方法
申请人信息
- 申请人:齐鲁工业大学(山东省科学院)
- 申请人地址:250000 山东省济南市长清区西部新城大学科技园
- 发明人: 齐鲁工业大学(山东省科学院)
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种单细胞转录组测序数据插补方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311763792.3 |
| 申请日 | 2023/12/21 |
| 公告号 | CN117437973B |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G16B20/20 |
| 权利人 | 齐鲁工业大学(山东省科学院) |
| 发明人 | 董祥军; 董淑杰; 赵龙; 鹿文鹏 |
| 地址 | 山东省济南市西部新城大学科技园 |
摘要文本
本发明公开了一种单细胞转录组测序数据插补方法,涉及单细胞RNA测序数据处理领域。本发明包括以下步骤:S1:构建原始基因表达矩阵V,并对其进行归一化处理;S2:识别原始基因表达矩阵V中潜在的缺失值,构建系数矩阵P;S3:利用非负矩阵分解算法分解原始基因归一化矩阵,得到细胞潜在特征矩阵Q和基因潜在特征矩阵H,并分别对其进行L1正则化约束,而后对细胞潜在特征矩阵Q应用图正则化约束,而后,迭代更新细胞潜在特征矩阵Q和基因潜在特征矩阵H,直至收敛,得预测矩阵N;S4:获取插补后的矩阵。本发明所述方法插补后的测序数据,在下游的细胞聚类和细胞轨迹重建领域均有较佳表现。。 (更多数据,详见专利查询网)
专利主权项内容
1.一种单细胞转录组测序数据插补方法,其特征在于:包括以下步骤:S1:筛选变异特征基因,根据筛选出的变异特征基因及与其相对应的细胞类型构建原始基因表达矩阵V;而后,对原始基因表达矩阵V进行归一化处理,得到原始基因归一化矩阵 ;S2:识别原始基因表达矩阵V中潜在的缺失值,构建用于仅对由测序技术原因所产生的技术零值的位置进行插补的系数矩阵P;S3:利用非负矩阵分解算法分解原始基因归一化矩阵,得到细胞潜在特征矩阵Q 和基因潜在特征矩阵H,而后,对细胞潜在特征矩阵Q和基因潜在特征矩阵H进行L1正则化约束,而后,对细胞潜在特征矩阵Q应用图正则化约束捕捉细胞在潜在空间中的几何关系,而后,迭代更新细胞潜在特征矩阵Q和基因潜在特征矩阵H,直至收敛,结束迭代更新过程,得到最终的细胞潜在特征矩阵Q和基因潜在特征矩阵H,并利用最终的细胞潜在特征矩阵Q和基因潜在特征矩阵H得到与原始矩阵相近的预测矩阵N;S4:根据系数矩阵P、原始基因归一化矩阵以及与原始矩阵相近的预测矩阵N计算得到插补后的矩阵/>;步骤S3具体为:S3-1、将原始基因归一化矩阵利用非负矩阵分解算法随机分解为两个基因表达矩阵,分别为细胞潜在特征矩阵Q和基因潜在特征矩阵H;S3-2、对细胞潜在特征矩阵Q和基因潜在特征矩阵H施加L1正则化约束,得到L1正则化Y;S3-3、计算原始基因归一化矩阵中相邻两列细胞的余弦距离,构建相似性矩阵S,并根据相似性矩阵S计算相似性矩阵S的图拉普拉斯矩阵/>,根据图拉普拉斯矩阵/>计算相似性矩阵S的拉普拉斯矩阵L,而后对细胞潜在特征矩阵Q应用图正则化约束计算拉普拉斯矩阵L中矩阵特征值总和M;S3-4、以步骤S3-1得到的细胞潜在特征矩阵Q和基因潜在特征矩阵H以及步骤S3-3得到的相似性矩阵S为基础,使用最小二乘法迭代更新细胞潜在特征矩阵Q和基因潜在特征矩阵H,在迭代交替更新的过程中,同时计算更新后的细胞潜在特征矩阵Q的相似性矩阵S来更新对更新后的细胞潜在特征矩阵Q图正则化约束,而后,利用跟新后的相似性矩阵S来更新图拉普拉斯矩阵以及更新细胞潜在特征矩阵Q,而后利用跟新后的图拉普拉斯矩阵/>来更新拉普拉斯矩阵L,而后利用跟新后的拉普拉斯矩阵L来更新拉普拉斯矩阵L中矩阵特征值总和M;而后利用更新后的矩阵特征值总和M更新近似矩阵N与原始基因归一化矩阵/>之间的F范数误差E,直至F范数误差E收敛,停止迭代,得到最终的细胞潜在特征矩阵Q、最终的基因潜在特征矩阵H以及与原始矩阵相近的预测矩阵N;所述近似矩阵N是通过细胞潜在特征矩阵Q和基因潜在特征矩阵H相乘得到的;步骤S3-1中,将原始基因归一化矩阵利用非负矩阵分解算法随机分解为细胞潜在特征矩阵Q和基因潜在特征矩阵H的计算方式,如式(4)和式(5)所示:
(4)
(5)式(4)中,是表示原始基因归一化矩阵;P表示构建的系数矩阵;Q表示细胞潜在特征矩阵;H表示基因潜在特征矩阵;/>表示基因潜在特征矩阵H的转置;/>是哈达玛积;/>是系数超参数;式(5)中,是表示原始基因归一化矩阵;P表示构建的系数矩阵;Q表示细胞潜在特征矩阵;H表示基因潜在特征矩阵;/>是细胞潜在特征矩阵Q的转置;/>是哈达玛积;/>是系数超参数。