词性标注模型生成方法和装置
摘要文本
本申请公开了词性标注模型生成方法和装置。该方法的一具体实施方式包括:利用用于生成词语对应的词向量的神经网络生成用于训练的语句中的每一个词语对应的词向量;基于生成的所述语句中的每一个词语对应的词向量,基于预测出的所述语句中的每一个词语的词性和每一个词语的标注的词性,调整所述对词性标注模型对应的神经网络的参数。一方面,对词性标注模型对应的神经网络进行训练的开销为以字粒度特征进行的训练的开销,同时,具有诸如保证同一个词内的所有字都预测为同一个词性的利用词粒度特征进行训练的优点。另一方面,最终得到的词性标注模型占用的存储空间小,使得词性标注模型可以应用于嵌入式系统中。
申请人信息
- 申请人:百度在线网络技术(北京)有限公司
- 申请人地址:100085 北京市海淀区上地十街10号百度大厦三层
- 发明人: 百度在线网络技术(北京)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 词性标注模型生成方法和装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN201710910875.9 |
| 申请日 | 2017年9月29日 |
| 公告号 | CN107608970B |
| 公开日 | 2024年4月26日 |
| IPC主分类号 | G06F40/205 |
| 权利人 | 百度在线网络技术(北京)有限公司 |
| 发明人 | 卞衍尧 |
| 地址 | 北京市海淀区上地十街10号百度大厦三层 |
专利主权项内容
1.一种词性标注模型生成方法,其特征在于,所述方法包括:将用于对词性标注模型对应的神经网络进行训练的语句中的每一个字对应的字向量依次输入到词性标注模型对应的神经网络中的用于生成词语对应的词向量的神经网络,以及利用用于生成词语对应的词向量的神经网络生成所述语句中的每一个词语对应的词向量;利用词性标注模型对应的神经网络中的用于对词语的词性进行预测的神经网络响应于接收到用于生成词语对应的词向量的神经网络输入的所述语句中的每一个词语对应的词向量,仅基于所述语句中的每一个词语对应的词向量,对所述语句中的每一个词语的词性进行预测,得到初步预测出的每一个词语的词性的概率分布;利用条件随机场算法基于初步预测出的每一个词语的词性的概率分布,得到词性转移概率矩阵;采用维特比算法基于词性转移概率矩阵,计算出概率最大路径,将位于概率最大路径上的每一个词语的词性分别作为最终预测出的每一个词语的词性,得到预测出的所述语句中的每一个词语的词性,以及基于预测出的所述语句中的每一个词语的词性和每一个词语的标注的词性,调整所述对词性标注模型对应的神经网络的参数。