← 返回列表
一种基于元器件行业的中英文混编文本的切词方法
申请人信息
- 申请人:深圳华强电子网集团股份有限公司
- 申请人地址:518000 广东省深圳市福田区车公庙泰然八路泰然大厦B栋12楼1201、1202、1203室
- 发明人: 深圳华强电子网集团股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于元器件行业的中英文混编文本的切词方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410195634.0 |
| 申请日 | 2024/2/22 |
| 公告号 | CN117764069A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F40/289 |
| 权利人 | 深圳华强电子网集团股份有限公司 |
| 发明人 | 张长付; 刘军; 侯跃腾; 谢中涞 |
| 地址 | 广东省深圳市福田区车公庙泰然八路泰然大厦B栋12楼1201、1202、1203室 |
摘要文本
本发明公开了一种基于元器件行业的中英文混编文本的切词方法,涉及文本切词技术领域,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化语言模型;S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。本发明具备在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。 来源:百度马 克 数据网
专利主权项内容
1.一种基于元器件行业的中英文混编文本的切词方法,其特征在于,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注所述元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化所述语言模型;S5、所述语言模型打包至可部署模块,接入元器件文本切词应用场景。