一种基于石油业务模型的油气企业大模型构建方法
摘要文本
本发明公开了一种基于石油业务模型的油气企业大模型构建方法,属于模型构建技术领域,包括数据准备、数据预处理、数据标注、训练数据生成、模型再训练/微调/RLHF、模型部署和应用运营,数据预处理由结构化数据预处理和非结构化文档预处理组成,数据预处理的核心目的是将非标准的各种来源物理数据处理为业务标准粒度的“标准数据”。本发明可以利用语义理解和生成等能力抽取知识,提高知识抽取的准确性和覆盖度,也可以抽取出隐含的、复杂的、多模态的知识,降低图谱构建成本,可以利用其语义理解和指令遵循等能力辅助知识图谱的半自动化构建设计、增加知识的全面性和覆盖度,协助更好的完成知识融合和更新。。微信公众号马克 数据网
申请人信息
- 申请人:北京侏罗纪软件股份有限公司
- 申请人地址:100085 北京市海淀区学清路9号汇智大厦B楼908室
- 发明人: 北京侏罗纪软件股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于石油业务模型的油气企业大模型构建方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311789160.4 |
| 申请日 | 2023/12/25 |
| 公告号 | CN117744770A |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06N5/02 |
| 权利人 | 北京侏罗纪软件股份有限公司 |
| 发明人 | 包世界 |
| 地址 | 北京市海淀区学清路9号汇智大厦B楼908室 |
专利主权项内容
1.一种基于石油业务模型的油气企业大模型构建方法,其特征在于,所述油气企业大模型构建方法包括以下步骤:S1、数据准备:将建设油气行业大模型需要的大量油气行业业务数据进行准备,包括但不限于石油基本概念、石油业务内容、石油工作流程标准规范、石油阅读理解、石油工程算法、图形标准规范;S2、数据预处理:数据预处理由结构化数据预处理和非结构化文档预处理组成;结构化数据预处理工作是指基于业务规则,利用数据萃取工具将原数据加工为有独立业务含义数据单元,同时补充部分业务标注信息;非结构化文档预处理是将文档数据根据拆分逻辑拆分成多个有独立业务含义较小的部分或段落,再将段落按类别、主题或其他标准进行组织和标记;S3、数据标注:对于油气行业数据标注,主要包括业务标准和业务关系标注,给数据打上各种业务标签,进一步说明数据的各种业务特征及延申含义,进一步对数据进行理解;根据上面数据粒度单元的业务属性及业务关系建立一个业务资源描述模型,通过模型各个维度关系给石油数据进行标注;S4、训练数据生成:根据数据粒度单元的业务属性及业务关系建立一个业务资源描述模型,通过模型各个维度关系给石油数据进行标注,按照大模型要求准备好的输入数据,根据大模型不同的微调要求,生成不同格式的训练数据;S5、模型再训练/微调/RLHF:进行微调时采用零代码一键微调,通过在界面设置参数、选择微调方法、数据集,一键自动进行微调;S6、模型部署:考虑模型压缩以减少存储和计算负担、选择合适的部署策略满足特定环境的需求、进行调优以确保最佳性能、实时监控模型的表现及健康状态,并根据反馈和新数据进行定期的模型升级;S7、应用运营:对海量多模态非结构化数据的处理及数据生成能力、大模型在特定领域的调优算法支持度及分布式并行计算的支持度、大模型压缩及转化以适应边端推理的部署及管理能力、服务发布及编排运营能力、资源调度与插件生态,确保大模型从生产到落地应用的全过程稳步运行。