← 返回列表

一种基于元器件行业的中英文混编文本的切词方法

申请号: CN202410195634.0
申请人: 深圳华强电子网集团股份有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种基于元器件行业的中英文混编文本的切词方法
专利类型 发明申请
申请号 CN202410195634.0
申请日 2024/2/22
公告号 CN117764069A
公开日 2024/3/26
IPC主分类号 G06F40/289
权利人 深圳华强电子网集团股份有限公司
发明人 张长付; 刘军; 侯跃腾; 谢中涞
地址 广东省深圳市福田区车公庙泰然八路泰然大厦B栋12楼1201、1202、1203室

摘要文本

本发明公开了一种基于元器件行业的中英文混编文本的切词方法,涉及文本切词技术领域,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化语言模型;S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。本发明具备在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。 来源:百度马 克 数据网

专利主权项内容

1.一种基于元器件行业的中英文混编文本的切词方法,其特征在于,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注所述元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化所述语言模型;S5、所述语言模型打包至可部署模块,接入元器件文本切词应用场景。