← 返回列表

适用于消费级显卡的快速大模型推理服务方法和系统

申请号: CN202311676610.9
申请人: 上海交通大学
申请日期: 2023/12/7

摘要文本

本发明提供了一种适用于消费级显卡的快速大模型推理服务方法和系统,包括:对预测器基线模型进行训练,获得神经元激活预测模型,预测神经元是否激活;将模型中的神经元分类为静态神经元和动态神经元,在离线时期分别分发给GPU和CPU;为每个神经元定义一个影响因子,并建立一个整数线性规划模型,通过近似求解获得执行效率最大化的神经元分发策略,并依据该策略将神经元预载到对应存储器中;CPU和GPU按照依赖关系异步执行各自神经元上已激活神经元的运算,最后同步合并运算结果;根据神经元激活预测的结果,识别并跳过未激活神经元的计算。本发明兼顾模型推理的运算速率和准确率,在提升推理服务性能的同时维持模型本身的准确率。 (来自 马克数据网)

专利详细信息

项目 内容
专利名称 适用于消费级显卡的快速大模型推理服务方法和系统
专利类型 发明申请
申请号 CN202311676610.9
申请日 2023/12/7
公告号 CN117689025A
公开日 2024/3/12
IPC主分类号 G06N5/04
权利人 上海交通大学
发明人 糜泽羽; 宋奕欣; 陈海波
地址 上海市闵行区东川路800号

专利主权项内容

1.一种适用于消费级显卡的快速大模型推理服务方法,其特征在于,包括:神经元激活分析步骤:在启动大模型推理服务之前,使用通用数据集对预测器基线模型进行训练,获得神经元激活预测模型,以在推理阶段依据用户的输入预测神经元是否激活;神经元分发策略求解步骤:依据神经元对模型运算的贡献大小,将模型中的神经元分类为静态神经元和动态神经元,在离线时期分别分发给GPU和CPU;结合每个神经元的激活频率、通信开销和处理单元的计算能力,为每个神经元定义一个影响因子,并建立一个整数线性规划模型,通过近似求解获得执行效率最大化的神经元分发策略,并依据该策略将神经元预载到对应存储器中;CPU-GPU混合推理步骤:在大模型推理运算的过程中,CPU和GPU按照依赖关系异步执行各自神经元上已激活神经元的运算,最后同步合并运算结果;神经元感知运算步骤:在CPU和GPU计算的过程中,根据神经元激活预测的结果,识别并跳过未激活神经元的计算。