← 返回列表
用于大语言模型的去偏倚方法
摘要文本
本发明涉及文本处理技术领域,具体涉及用于大语言模型的去偏倚方法。该方法包括:获取数据集;将数据集分为若干句子,每个句子获取一个词性标注序列;获取句子中每个词的情感得分,根据每个形容词周围的词的编号、情感得分以及词性获取每个形容词的情感强度加权系数;根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;根据所有形容词的位置加权情感指数获取每个句子的文本偏倚度;根据每个句子的文本偏倚度对大语言模型进行去偏倚。本发明可以更加精确的调整大模型训练时的细节,从而降低大语言模型输出文本的偏倚情况。。马 克 数 据 网
申请人信息
- 申请人:卓世科技(海南)有限公司
- 申请人地址:572025 海南省三亚市崖州区崖州湾科技城用友产业园(三亚)2号楼102室
- 发明人: 卓世科技(海南)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 用于大语言模型的去偏倚方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311854611.8 |
| 申请日 | 2023/12/29 |
| 公告号 | CN117494727A |
| 公开日 | 2024/2/2 |
| IPC主分类号 | G06F40/30 |
| 权利人 | 卓世科技(海南)有限公司 |
| 发明人 | 赵策; 王亚; 屠静; 苏岳; 万晶晶; 李伟伟; 颉彬; 周勤民; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩 |
| 地址 | 海南省三亚市崖州区崖州湾科技城用友产业园(三亚)2号楼102室 |
专利主权项内容
1.用于大语言模型的去偏倚方法,其特征在于,该方法包括以下步骤:获取训练大语言模型的数据集;将数据集分为若干句子,对于每个句子获取一个词性标注序列;获取句子中每个词的情感得分;获取词性标注序列的邻域窗口,根据词性标注序列获取每个词的位置和副词标签,根据形容词的邻域窗口中每个词的情感得分、副词标签以及词的位置获取形容词的情感强度加权系数;根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;根据每个形容词的位置加权情感指数将形容词分类,预设不同类别形容词的情感偏倚补偿系数,根据不同类别形容词的位置加权指数使用不同的补偿系数获取句子的文本偏倚度;根据每个句子的文本偏倚度对大语言模型进行去偏倚。。马 克 数 据 网