← 返回列表
分词方法、装置以及计算机可读存储介质
摘要文本
本公开涉及一种分词方法、装置以及计算机可读存储介质,涉及互联网技术领域。本公开的方法包括:根据应用场景构建分词词库,分词词库中包括与应用场景对应的自定义词语;利用分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。本公开根据应用场景添加自定义词语到分词词库,并利用分词词库对训练语料进行标注,基于标注的语料对隐马尔科夫模型进行训练,隐马尔科夫模型可以学习这些自定义词语的特征,进而,训练好的隐马尔可夫模型则可以自动识别该应用场景下的词语,并且隐马尔可夫模型根据词语的前后关联性可以自动识别新词,提高了分词的准确性。 马 克 数 据 网
申请人信息
- 申请人:北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
- 申请人地址:100195 北京市海淀区杏石口路65号西杉创意园四区11号楼东段1-4层西段1-4层
- 发明人: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 分词方法、装置以及计算机可读存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN201711363751.X |
| 申请日 | 2017年12月18日 |
| 公告号 | CN109933778B |
| 公开日 | 2024年3月5日 |
| IPC主分类号 | G06F40/289 |
| 权利人 | 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司 |
| 发明人 | 王颖帅; 李晓霞; 苗诗雨 |
| 地址 | 北京市海淀区杏石口路65号西杉创意园四区11号楼东段1-4层西段1-4层; 北京市大兴区北京经济技术开发区科创十一街18号C座2层201室 |
专利主权项内容
1.一种分词方法,包括:根据应用场景构建分词词库,所述分词词库中包括与应用场景对应的自定义词语;将分词词库、停用词库和训练语料输入Spark集群,配置HDSF路径,其中,所述分词词库、所述停用词库作为广播变量,训练语料被划分为多个弹性分布式数据集;在各个弹性分布式数据集中调用所述停用词库,并行对训练语料进行清洗,去除停用词;利用所述分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词;其中,所述利用所述分词词库对训练语料进行标注包括:在每个弹性分布式数据集中调用所述广播变量中的分词词库,对每个弹性分布式数据集中的训练语料并行进行标注。