基于神经网络的蛋白设计方法及系统
摘要文本
本发明涉及蛋白质数据处理技术领域,提出了基于神经网络的蛋白设计方法及系统,包括:获取蛋白质分子的图数据及氨基酸序列;根据蛋白质分子的图数据及氨基酸序列获取相互作用强度,利用聚类算法获取由相互作用强度组成的样本数据集的聚类结果,根据聚类结果获取热稳定性递增序列;根据热稳定性递增序列获取热稳定连续指数,根据热稳定连续指数获取超高热稳定性聚类簇,根据超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列;根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的蛋白质分子。本发明在保留蛋白质的热稳定功能的基础上设计氨基酸序列,使得设计蛋白质更符合预期效果。
申请人信息
- 申请人:江苏正大天创生物工程有限公司
- 申请人地址:225300 江苏省泰州市中国医药城口泰路西侧、陆家路东侧G60幢51号四层东
- 发明人: 江苏正大天创生物工程有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于神经网络的蛋白设计方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311658441.6 |
| 申请日 | 2023/12/6 |
| 公告号 | CN117352043B |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G16B5/00 |
| 权利人 | 江苏正大天创生物工程有限公司 |
| 发明人 | 王曙蒙; 常天安 |
| 地址 | 江苏省泰州市中国医药城口泰路西侧、陆家路东侧G60幢51号四层东 |
专利主权项内容
1.基于神经网络的蛋白设计方法,其特征在于,该方法包括以下步骤:获取蛋白质分子的图数据及氨基酸序列;根据每个蛋白质分子的图数据及氨基酸序列获取每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合;根据每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个蛋白质分子的氨基酸序列中每个氨基酸的相互作用强度;利用聚类算法获取每个蛋白质分子的氨基酸序列中所有氨基酸的相互作用强度的聚类结果,根据所述聚类结果获取每个蛋白质分子的热稳定性递增序列;根据每个蛋白质分子的热稳定性递增序列获取每个蛋白质分子对应的所有聚类簇中每个聚类簇的热稳定连续指数;根据每个蛋白质分子对应的所有聚类簇的热稳定连续指数获取每个蛋白质分子的超高热稳定性聚类簇;根据所有蛋白质分子的超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列;根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的蛋白质分子;所述根据每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个蛋白质分子的氨基酸序列中每个氨基酸的相互作用强度的方法为:对于每个蛋白质分子的氨基酸序列,根据氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个氨基酸的结构稳定度;对于每个蛋白质分子的氨基酸序列中每个氨基酸,将以自然常数为底数,以氨基酸的结构稳定度为指数的负映射结果与第二预设参数的乘积作为第一求和因子,将所述第一求和因子与第三预设参数的和作为氨基酸的相互作用强度;所述根据氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个氨基酸的结构稳定度的方法为:式中,表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的结构稳定度,K表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合中元素的数目,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸所代表节点的连接边的数目,/>表示欧氏距离函数,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸在图数据中的节点位置,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸在图数据中的节点位置;所述根据每个蛋白质分子的热稳定性递增序列获取每个蛋白质分子对应的所有聚类簇中每个聚类簇的热稳定连续指数的方法为:式中,表示第x个蛋白质分子对应的热稳定性递增序列中第q个元素所表征聚类簇的热稳定连续指数,/>和/>分别表示第x个蛋白质分子对应的热稳定性递增序列中第q个、第(q+1)个元素值,/>表示以自然常数为底数的指数函数。