一种基于元器件行业的中英文混编文本的切词方法

申请号: CN202410195634.0

申请人: 深圳华强电子网集团股份有限公司

更新日期: 2026-03-17

摘要文本

深圳华强电子网集团股份有限公司取得“一种透气窗帘布”专利技术，本发明公开了一种基于元器件行业的中英文混编文本的切词方法，涉及文本切词技术领域，该切词方法包括：S1、获取工业场景下的元器件文本数据，标注元器件文本数据中的中英文混编文本的切词边界，生成标注数据，并存储至元器件语料库；S2、采集不同种类元器件的物料清单数据，并进行数据预处理；S3、构建语言模型，并输入预处理后的物料清单数据进行模型测试；S4、采用数据蒸馏与模型压缩的方式，优化语言模型；S5、语言模型打包至可部署模块，接入元器件文本切词应用场景。本发明具备在专业领域中处理中英文混编文本的能力，为元器件行业提供了高效、准确的切词工具，提升了文本处理的效率和精度。来源：百度马克数据网

专利主权项内容

1.一种基于元器件行业的中英文混编文本的切词方法，其特征在于，该切词方法包括：S1、获取工业场景下的元器件文本数据，标注所述元器件文本数据中的中英文混编文本的切词边界，生成标注数据，并存储至元器件语料库；S2、采集不同种类元器件的物料清单数据，并进行数据预处理；S3、构建语言模型，并输入预处理后的物料清单数据进行模型测试；S4、采用数据蒸馏与模型压缩的方式，优化所述语言模型；S5、所述语言模型打包至可部署模块，接入元器件文本切词应用场景。

专利申请信息

项目	内容
专利名称	一种基于元器件行业的中英文混编文本的切词方法
专利类型	发明申请
申请号	CN202410195634.0
申请日	2024/2/22
公告号	CN117764069A
公开日	2024/3/26
IPC主分类号	G06F40/289
权利人	深圳华强电子网集团股份有限公司
发明人	张长付; 刘军; 侯跃腾; 谢中涞
地址	广东省深圳市福田区车公庙泰然八路泰然大厦B栋12楼1201、1202、1203室

一种基于元器件行业的中英文混编文本的切词方法

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种基于元器件行业的中英文混编文本的切词方法

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

防水结构及处于震动环境下的伸缩缝的维修方法

一种数据处理方法及电子设备

一种基于掌静脉识别的键盘鼠标控制方法

一种基于智能头盔的事件信息推送方法及系统

电源和负载切换电路、低噪声放大器及电子设备

一种图像处理方法及电子设备

热门技术领域

快速入口

专利技术资料