← 返回列表

一种基于LoRA嵌入的指令数据挖掘方法和系统

申请号: CN202311332989.1
申请人: 哈尔滨工业大学
申请日期: 2023/10/16

摘要文本

一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。

专利详细信息

项目 内容
专利名称 一种基于LoRA嵌入的指令数据挖掘方法和系统
专利类型 发明申请
申请号 CN202311332989.1
申请日 2023/10/16
公告号 CN117556251A
公开日 2024/2/13
IPC主分类号 G06F18/214
权利人 哈尔滨工业大学
发明人 杨沐昀; 黄辉; 卢昊; 朱聪慧; 徐冰; 曹海龙; 赵铁军
地址 黑龙江省哈尔滨市南岗区西大直街92号

专利主权项内容

更多数据: 1.一种基于LoRA嵌入的指令数据挖掘方法,其特征在于,所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。