← 返回列表

地址标准化处理方法、装置、设备及计算机可读存储介质

申请号: CN201810965153.8
申请人: 京东科技控股股份有限公司
申请日期: 2018年8月23日

摘要文本

本发明提供一种地址标准化处理方法、装置、设备及计算机可读存储介质,方法包括:接收待处理地址文本;通过预设的神经网络模型对所述待处理地址文本中各子地址的级别进行标注,获得标注后的待处理地址文本;针对所述标注后的待处理地址文本中的各子地址,根据预设的标准地址库对所述子地址进行处理,获得与所述待处理地址文本对应的标准地址。从而能够快速准确的确定该待处理地址文本对应的标准地址信息,能够提高地址标准化的准确率,此外,还能降低地址文本的人工维护成本。

专利详细信息

项目 内容
专利名称 地址标准化处理方法、装置、设备及计算机可读存储介质
专利类型 发明授权
申请号 CN201810965153.8
申请日 2018年8月23日
公告号 CN110895651B
公开日 2024年2月2日
IPC主分类号 G06F40/117
权利人 京东科技控股股份有限公司
发明人 王翔; 张雯
地址 北京市大兴区北京经济技术开发区科创十一街18号C座2层221室

专利主权项内容

1.一种地址标准化处理方法,其特征在于,包括:接收待处理地址文本;通过预设的神经网络模型对所述待处理地址文本中各子地址的级别进行标注,获得标注后的待处理地址文本;针对所述标注后的待处理地址文本中的各子地址,根据预设的标准地址库对所述子地址进行处理,获得与所述待处理地址文本对应的标准地址;所述通过预设的神经网络模型对所述待处理地址文本中各子地址的级别进行标注,获得标注后的待处理地址文本之前,还包括:通过已对各子地址进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型;所述通过已对各子地址进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型之前,还包括:接收待训练文本;去除所述待训练文本中无用的标点符号;对去除无用标点符号的所述待训练文本进行分词,获得所述待训练文本对应的各子地址;对所述待训练文本中的各子地址进行级别标注;所述对去除无用标点符号的所述待训练文本进行分词,获得所述待训练文本对应的各子地址之后,还包括:根据预设的编码方式对所述各子地址进行编码;通过预设的向量转换模型将各子地址与所述各子地址对应的编码转换为文本向量与编码向量,并将所述文本向量与编码向量关联存储;针对每一所述子地址对应的文本向量与编码向量,通过预设的关联关系建立模型建立其与相邻的子地址的文本向量与编码向量的关联关系;所述对所述待训练文本中的各子地址进行级别标注,包括:根据预设的子地址级别对建立关联关系后的各子地址进行级别标注。