← 返回列表
一种基于LoRA嵌入的指令数据挖掘方法和系统
摘要文本
一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。
申请人信息
- 申请人:哈尔滨工业大学
- 申请人地址:150001 黑龙江省哈尔滨市南岗区西大直街92号
- 发明人: 哈尔滨工业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于LoRA嵌入的指令数据挖掘方法和系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311332989.1 |
| 申请日 | 2023/10/16 |
| 公告号 | CN117556251A |
| 公开日 | 2024/2/13 |
| IPC主分类号 | G06F18/214 |
| 权利人 | 哈尔滨工业大学 |
| 发明人 | 杨沐昀; 黄辉; 卢昊; 朱聪慧; 徐冰; 曹海龙; 赵铁军 |
| 地址 | 黑龙江省哈尔滨市南岗区西大直街92号 |
专利主权项内容
更多数据: 1.一种基于LoRA嵌入的指令数据挖掘方法,其特征在于,所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。