一种基于低深度测序估算植物基因组大小和/或重复度的方法
申请人信息
- 申请人:中国科学院昆明植物研究所
- 申请人地址:650201 云南省昆明市蓝黑路132号
- 发明人: 中国科学院昆明植物研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于低深度测序估算植物基因组大小和/或重复度的方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311367837.5 |
| 申请日 | 2023/10/23 |
| 公告号 | CN117106875B |
| 公开日 | 2024/2/6 |
| IPC主分类号 | C12Q1/6869 |
| 权利人 | 中国科学院昆明植物研究所 |
| 发明人 | 贺正山; 杨俊波; 曾春霞; 李德铢 |
| 地址 | 云南省昆明市蓝黑路132号 |
摘要文本
中国科学院昆明植物研究所获取“一种透气窗帘布”专利技术,本发明提供了一种基于低深度测序估算植物基因组大小和/或重复度的方法,属于植物分子生物技术领域。本发明选用内置Gurobi的RESPECT来拟合k‑mer频率分布结果,可从不高于5×的低深度测序数据获取植物基因组的大小和/或重复度,降低实验成本;通过组合BBMap中的BBDuk、BBMerge,可流程化质量过滤和合并双端测序数据;基于首轮迭代的结果得到第二轮迭代的起始的种子全基因组测序深度,设置梯度抽样,得到多梯度下的RESPECT计算的测序深度和估算的基因组大小,绘制曲线图,对4×深度以下的曲线的平台期计算均值,得到最终的基因组大小估算值。本发明的方法成本低且能准确估算植物基因组大小。 详见官网:
专利主权项内容
1.一种基于低深度测序估算植物基因组大小和/或重复度的方法,其特征在于,包括以下步骤:对未知基因组大小的植物进行低深度全基因组二代测序,得到低深度测序数据;所述低深度测序数据的大小为3~5Gb;所述低深度全基因二代测序的测序方式包括单端测序或双端测序;使用BBDuk软件对所述低深度测序数据进行质量过滤,得到干净的测序数据;所述质量过滤包括过滤掉低深度测序数据中的接头序列和污染序列;当所述低深度全基因组二代测序为双端测序时,在所述质量过滤后,还包括使用BBMerge软件对所述质量过滤后的测序数据进行合并,得到合并后的干净的测序数据;以所述干净的测序数据或者合并后的干净的测序数据为待处理数据,运行RESPECT软件对所述待处理数据设置5个抽样梯度进行预跑,得到第一轮迭代的结果,所述5个抽样梯度为100%、75%、50%、25%和1%;所述RESPECT软件内置了Gurobi;根据所述第一轮迭代的结果,得到第二轮迭代的起始种子全基因组测序深度,包括根据第一轮迭代的RESPECT软件估算的全基因组测序深度相互之间的比值,与抽样梯度相互之间的比值进行比较,选择两项比值一致的RESPECT估算的全基因组测序深度作为正确的估值;基于所述正确的估值上调或下调抽样百分比,使第二轮迭代的起始的种子全基因组测序深度在3×~5×;根据所述第二轮迭代的起始种子全基因组测序深度,在目标测序深度内设置梯度抽样,目标测序深度为0.5×~4×,得到11个不同抽样梯度深度的抽样数据,所述11个不同抽样梯度深度为100%、90%、80%、70%、60%、50%、40%、30%、20%、10%和5%;使用RESPECT软件分别对所述不同抽样梯度深度的抽样数据进行第二轮迭代,当不同抽样梯度深度下RESPECT 软件起始的种子全基因组测序深度和基因组大小稳定时,得到估算的全基因组测序深度和基因组大小的曲线图;所述稳定的标准为:不同抽样梯度深度之间的比例和RESPECT软件估算的测序深度的比例为等比例且估算基因组大小的变异系数≤10%,其中计算变异系数至少有不少于6个计算的基因组大小的值,采用变异系数最小的数值来计算平均值;根据所述估算的全基因组测序深度和基因组大小的曲线图,获取4×深度以下的平台期的基因组大小和/或重复度;计算所述平台期的基因组大小和/或重复度的平均值,将所述平均值作为最终估算的植物基因组大小和/或重复度;每次所述RESPECT软件运行设置的参数为循环数1000。