一种基于自然语言的多表格数据查询和预测方法
摘要文本
本发明公开了一种基于自然语言的多表格数据查询和预测方法。基于已有的业务数据库和具体的业务场景,收集常见的业务问题;在此基础上分别构建表格抽取数据集、业务知识数据集和查询分析数据集;选择表格抽取模型和查询分析指令生成模型,采用全参数微调的方式进行训练;在生产环境中部署模型,并根据实际功能需求差异,适配开发对应的指令翻译、矫正和执行模块;最后,通过WEB前端页面对模型发送数据查询、分析请求。本发明能够实现使用自然语言在多表格、多字段的复杂业务数仓环境中进行精确的数据提取查询、可视化分析和数据预测,让业务人员能够跨越SQL、Python等结构化数据提取分析语言的使用门槛,进行交互式的数据查询和分析。。搜索马 克 数 据 网
申请人信息
- 申请人:浙江大学计算机创新技术研究院
- 申请人地址:311200 浙江省杭州市萧山区利一路188号天人大厦33楼
- 发明人: 浙江大学计算机创新技术研究院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于自然语言的多表格数据查询和预测方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311619928.3 |
| 申请日 | 2023/11/30 |
| 公告号 | CN117725078A |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06F16/242 |
| 权利人 | 浙江大学计算机创新技术研究院 |
| 发明人 | 查良瑜; 苏常保; 黄清仪; 杨赛赛; 袁静 |
| 地址 | 浙江省杭州市萧山区利一路188号天人大厦33楼 |
专利主权项内容
1.一种基于自然语言的多表格数据查询和预测方法,其特征在于,包括以下步骤:步骤一:根据实际业务需求确认对接的数据仓库、数据表格,接着获取不同数据仓库之间的基本区分信息以及不同数据表格之间的基本区分信息,并记为数据来源信息;步骤二:从当前对接的数据仓库中收集用户问题和请求,从而形成种子问题以及业务名词解释;步骤三:基于当前对接的数据仓库、数据表格、数据来源信息、种子问题和业务名词解释,分别构建表格抽取数据集、业务知识数据集和查询分析数据集;步骤四:分别对表格抽取数据集、业务知识数据集、查询分析数据集进行数据增强和数据清洗操作后,分别获得预处理后的表格抽取数据集、业务知识数据集、查询分析数据集;步骤五:使用预处理后的表格抽取数据集训练表格抽取模型,获得训练好的表格抽取模型;以及使用业务知识数据集和查询分析数据集训练查询分析指令生成模型,获得训练好的查询分析指令生成模型;步骤六:将训练好的表格抽取模型和查询分析指令生成模型级联部署后,获得多表格查询指令生成模型;将发送的用户请求文本输入到多表格查询指令生成模型中,获得最终的查询-分析结果。。 (来自 马克数据网)