← 返回列表

基于数据扩增的有机反应产物逆合成方法及装置

申请号: CN202311753818.6
申请人: 烟台国工智能科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 基于数据扩增的有机反应产物逆合成方法及装置
专利类型 发明授权
申请号 CN202311753818.6
申请日 2023/12/20
公告号 CN117457093B
公开日 2024/3/8
IPC主分类号 G16C20/10
权利人 烟台国工智能科技有限公司
发明人 柳彦宏; 李中伟; 肖瑞; 李奇文
地址 山东省烟台市开发区珠江路66号正海大厦27层2701号

摘要文本

基于数据扩增的有机反应产物逆合成方法及装置,属于逆合成预测技术领域,该方法使用原始数据集训练一个正反应模型,利用正反应模型判定生成的新反应是否合理,同时,构建逆合成预测模型,将分子图作为逆合成预测模型的输入,将目标化合物的SMILES表达式作为输入,生成目标化合物的目标分子图;将目标分子图的图结构、节点特征和边特征输入到逆合成预测模型,获得每个分子和键匹配反应模板的概率组成的矩阵;将得到的所有概率进行排序,选择评分处于前预设数量的分子和键,提取反应位点和反应模板,根据反应位点和反应模板生成预测的反应物。本发明缓解模板使用频率的不均衡,提高低频模板的频率;提高逆合成预测的多样性。

专利主权项内容

1.基于数据扩增的有机反应产物逆合成方法,其特征在于,包括:获取扩增后的训练集和验证集,及训练集和验证集中的产物对应原始数据集的标签,及训练集和验证集中相同产物的扩增数据的标签;将原始数据集中的产物SMILES转变成原始分子图,原始分子图包括图结构、节点特征和边特征;将训练集和验证集中的产物对应原始数据集的标签,及训练集和验证集中相同产物的扩增数据的标签,转变成one-hot形式的标签向量;构建逆合成预测模型,将分子图作为逆合成预测模型的输入,通过逆合成预测模型获得预测结果,计算预测结果与标签向量的损失;通过训练集对逆合成预测模型进行训练,并计算损失反向传播优化逆合成预测模型的参数,通过验证集对逆合成预测模型进行验证,计算验证集的损失,当验证集的损失停止下降后结束训练,得到验证后的逆合成预测模型;将目标化合物的SMILES表达式作为输入,生成目标化合物的目标分子图;将目标分子图的图结构、节点特征和边特征输入到逆合成预测模型,获得每个分子和键匹配反应模板的概率组成的矩阵;将得到的所有概率进行排序,选择评分处于前预设数量的分子和键,提取反应位点和反应模板,根据反应位点和反应模板生成预测的反应物;逆合成模型的构建包含以下步骤:通过一个K层的消息注意力网络学习分子图的局部特征,节点之间消息传递的注意力权重如下:式中,k-1表示第k-1层的消息传递,W和b为可更新的注意力参数矩阵和偏置向量,表示第k-1层节点a的特征向量,节点b为节点a的邻居,/>表示第k-1层节点b的特征向量;ab表示节点a和b之间的边,/>表示第k-1层节点a和b之间的边的特征向量;∥表示向量串联,根据注意力权重,节点之间消息传递计算如下:attatt式中,和/>为第k层的自链接参数矩阵和消息传递参数矩阵,/>表示与原子节点a相连的边集合,σ表示非线性激活函数,边的消息传递公式如下所示:式中,是边消息传递的参数矩阵,利用一个门控注意力缓解高阶特征的过平滑效应,计算公式如下:式中,表示经过门控注意力之后的节点特征向量,/>表示经过门控注意力之后的节点a和b之间边特征向量,/>表示第0层节点a的特征向量,/>表示第k层节点a的特征向量,表示第0层节点a和b之间边特征向量,/>表示第k层节点a和b之间边特征向量,ga(·)的公式如下:m=σ(W(x∥x)),m0kn=σ(W(x∥x)),n0k式中,m和n分别表示门控注意力中的两个权重,表示表示第0层和第k层特征向量的相关性向量,e表示经过门控注意力之后的特征向量;W、W和W表示可更新的参数矩阵,节点和边的局部特征向量为K层消息传递结果的均值:kmnl式中,e表示节点a最终的局部特征向量,e表示节点a和节点b最终的局部特征向量,表示第0层节点a的特征向量,/>表示第0层节点a和b之间边特征向量,/>表示第k层节点a的特征向量,/>表示第k层节点a和b之间边特征向量。aab