← 返回列表
一种基于人工智能的声音克隆方法及系统
申请人信息
- 申请人:江西拓世智能科技股份有限公司; 拓世科技集团有限公司
- 申请人地址:330000 江西省南昌市高新技术产业开发区火炬大街188号淳和大厦16楼1608室
- 发明人: 江西拓世智能科技股份有限公司; 拓世科技集团有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于人工智能的声音克隆方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410145879.2 |
| 申请日 | 2024/2/2 |
| 公告号 | CN117672182A |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G10L13/10 |
| 权利人 | 江西拓世智能科技股份有限公司; 拓世科技集团有限公司 |
| 发明人 | 刘仁勤; 万礼强 |
| 地址 | 江西省南昌市高新技术产业开发区火炬大街188号淳和大厦16楼1608室; 江西省南昌市南昌高新技术产业开发区火炬大街188号淳和大厦16楼1601室 |
摘要文本
本发明提供了一种基于人工智能的声音克隆方法及系统,该方法通过将原始文本正则化处理,并依次转换为若干待转换句和若干待转换词,获取待转换词的拼音,并将其中各字的拼音进行标注,得到第一标注,将字的拼音中的声母和韵母拆分,并将字的拼音的第一标注赋给韵母,再对字的拼音中的声母进行标注,根据预设规则,确定音素信息,音素信息包括第一标注中的目标标注,然后重新组合词组,并根据用户说话语速,确定重新组合后的各词组之间的停顿时间,最后根据字和对应的音素信息,转换为声学特征,并将声学特征转换为目标波形,根据目标波形,完成声音克隆,可以有效解决仅依靠专业的语义学知识和经验进行人工设计,往往耗时耗力,且效果不好的问题。
专利主权项内容
1.一种基于人工智能的声音克隆方法,其特征在于,应用于汉语场景中,所述方法包括:获取原始文本,将所述原始文本进行正则化处理,得到第一文本;根据预设标识符,将所述第一文本,拆分为若干待转换句,并分别将所述待转换句进行分词处理,得到若干待转换词;获取所述待转换词的拼音,并根据拼音的四声调,将所述待转换词中各字的拼音进行标注,得到各字的拼音的第一标注,其中,字的拼音至少存在一个第一标注;将字的拼音中的声母和韵母拆分,并将字的拼音的第一标注赋给所述韵母,再对字的拼音中的声母进行标注;根据预设规则,确定音素信息,所述音素信息包括所述第一标注中的目标标注;重新组合词组,并根据用户说话语速,确定重新组合后的各词组之间的停顿时间;根据字和对应的音素信息,转换为声学特征,并将所述声学特征转换为目标波形,根据所述目标波形,完成声音克隆。。 (来自 )