← 返回列表

基于Python的智能切词方法、系统、设备及存储介质

申请号: CN202311774221.X
申请人: 深圳大数信科技术有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 基于Python的智能切词方法、系统、设备及存储介质
专利类型 发明授权
申请号 CN202311774221.X
申请日 2023/12/22
公告号 CN117454893B
公开日 2024/3/22
IPC主分类号 G06F40/289
权利人 深圳大数信科技术有限公司
发明人 王海龙; 姜华
地址 广东省深圳市前海深港合作区南山街道自贸西街18号前海香缤大厦706-710

摘要文本

深圳大数信科技术有限公司取得“一种透气窗帘布”专利技术,本发明公开了基于Python的智能切词方法、系统、设备及存储介质,涉及智能切词技术领域,包括如下步骤:获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;对待切词语句进行遍历切分;对重复词组进行分析,判断重复词组中的有效组词应如何划分;对相邻的待分单字进行分析,判断是否能够组成名称;将切分完成后的待切词语句进行展示;本发明用于解决现有的智能切词技术还存在难以区分相邻的几个字可以组成多个词语的情况,且对人名的切分不够准确,导致切词完成后语句含义易发生改变的问题。

专利主权项内容

1.基于Python的智能切词方法,其特征在于,包括如下步骤:获取待切词语句,根据形容词性物主代词数据库查找出形容词性物主代词并进行标记;对待切词语句进行遍历切分,根据常用词数据集将待切词语句中能够组成词语的部分标记为有效组词,若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组;对重复词组进行分析,判断重复词组中的有效组词应如何划分;遍历切分后,将待切词语句中剩余的未组成词语的文字标记为待分单字,对相邻的待分单字进行分析,判断是否能够组成名称;将切分完成后的待切词语句进行展示;查找出形容词性物主代词并进行标记包括如下子步骤:获取待切词语句;读取形容词性物主代词数据库,将待切词语句与形容词性物主代词数据库进行遍历比对,查找其中的形容词性物主代词,标记为有效组词;对待切词语句进行遍历切分包括如下子步骤:从待切词语句的首个文字开始,对每个文字进行编号,标记为单字N,N为大于等于一的正整数;将单字N标记为待切首字,将待切首字至单字N+M进行组合,得到初始组词,M为第一测试数;将初始组词与常用词数据集进行比对,查找初始组词是否存在于常用词数据集内,若存在,则输出组词有效信号;若不存在,则输出组词无效信号;将输出组词有效信号的初始组词标记为有效组词L,L为有效组词的编号,L为大于等于一的正整数;将每个独立的有效组词视为一个集合,若存在任意有效组词L为有效组词L-M至有效组词L+M的子集,不包括有效组词L,则输出词语从属信号;若输出词语从属信号,则将有效组词L剔除;若前后两个有效组词中有重复的文字,则将这两个有效组词标记为重复词组包括如下子步骤:将每个独立的有效组词视为一个集合,若存在任意有效组词L与有效组词L-1至有效组词L+1有交集,则输出词语交集信号;若输出词语交集信号,则将相交的有效组词标记为重复词组;对重复词组进行分析,判断重复词组中的有效组词应如何划分包括如下子步骤:将重复词组所在的语句标记为歧义语句,所述歧义语句为重复词组前后两个标点符号之间所包含的一条语句;将歧义语句分别翻译为英语、阿拉伯语、俄语、法语以及西班牙语;将翻译后的歧义语句标记为翻译语句,将翻译语句内每个以空格为分界的单词翻译为汉语,翻译得到的词语标记为翻译词语;将重复词组中的有效组词标记为重复组词S,S为大于等于一的正整数,将重复组词S与翻译词语进行比对,统计重复组词S出现的次数,标记为翻译正确数;统计完成后,获取翻译正确数最大的重复组词S,标记为有效组词,将当前重复词组内的有效组词剔除,剩下的重复组词若仅剩一个,则停止分析,若重复组词的数量大于一,则继续对重复词组进行分析,直到将所有重复词组中的重复组词都转换为有效组词为止。 更多数据:搜索马克数据网来源: