一种声音采集方法及电子设备与流程

1.本技术涉及语音信号处理技术领域，尤其涉及一种声音采集方法及电子设备。

背景技术：

2.基于单麦克风或多麦克风的声音采集过程中，不可能避免会采集到扬声器发出的回声信号，或者由于电子设备的硬件以及通话环境产生的噪声信号；相关技术中，对回声信号的抑制以及噪声信号的去除的效果并不明显，以至于用户对于通话过程的体验不佳。

技术实现要素：

3.本技术提供一种声音采集方法及电子设备，以至少解决现有技术中存在的以上技术问题。
4.本技术一方面提供一种声音采集方法，应用于具有由多个麦克风组成的麦克风阵列的电子设备，所述方法包括：
5.通话过程中，获得关注方向；
6.基于所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源的信号；所述电子设备的扬声器所发出的声音位于所述关注方向以外；
7.基于所述接收波束形成采集音频信号；
8.基于回声抑制引擎处理所述采集音频信号生成音频信号；
9.基于智能语音引擎处理所述音频信号生成语音输出信号，所述智能语音引擎用于滤除所述音频信号中的噪声信号。
10.上述方案中，所述基于回声抑制引擎处理所述采集音频信号生成音频信号包括：
11.获得所述通话的下行音频信号，所述下行音频信号作为回声参考信号，所述下行音频信号用于所述扬声器的音频输出；
12.所述回声抑制引擎基于所述回声参考信号对所述采集音频信号处理，以降低所述采集音频信号中回声信号的影响，并生成音频信号；所述音频信号包括语音信号以及残留回声信号。
13.上述方案中，所述基于智能语音引擎处理所述音频信号生成语音输出信号包括：
14.基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号，其中，所述语音信号为所述语音输出信号。
15.上述方案中，所述回声抑制引擎基于所述回声参考信号对所述采集音频信号处理，以降低所述采集音频信号中回声信号的影响，并生成音频信号包括：
16.调整所述回声参考信号的幅度和相位；使得所述回声参考信号的幅度与所述采集音频信号的幅度相等，所述回声参考信号的相位与所述采集音频信号的相位相同；
17.确定所述采集音频信号与调整幅度和相位之后的回声参考信号之间的差值，为所述音频信号。
18.上述方案中，所述基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号之前，所述方法还包括：
19.确认语音信号样本，以及所述语音信号样本对应的测试语音信号；
20.基于所述语音模型确定所述语音信号样本对应的预测语音信号；
21.确定所述语音信号样本对应的测试语音信号与所述预测语音信号之间的差异；
22.基于所述测试语音信号与所述预测语音信号之间的差异，调整所述语音模型的模型参数。
23.本技术另一方面提供一种电子设备，包括由多个麦克风组成的麦克风阵列，所述电子设备包括：
24.获得单元，用于通话过程中，获得关注方向；
25.波束成形单元，用于基于所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源的信号；所述电子设备的扬声器所发出的声音位于所述关注方向以外；基于所述接收波束形成采集音频信号；
26.回声抑制引擎，用于处理所述采集音频信号生成音频信号；
27.智能语音引擎，用于处理所述音频信号生成语音输出信号，所述智能语音引擎用于滤除所述音频信号中的噪声信号。
28.上述方案中，所述回声抑制引擎处理具体用于：
29.获得所述通话的下行音频信号，所述下行音频信号作为回声参考信号，所述下行音频信号用于所述扬声器的音频输出；
30.所述回声抑制引擎基于所述回声参考信号对所述采集音频信号处理，以降低所述采集音频信号中回声信号的影响，并生成音频信号；所述音频信号包括语音信号以及残留回声信号。
31.上述方案中，所述智能语音引擎具体用于：
32.基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号，其中，所述语音信号为所述语音输出信号。
33.上述方案中，所述回声抑制引擎处理具体用于：
34.调整所述回声参考信号的幅度和相位；使得所述回声参考信号的幅度与所述采集音频信号的幅度相等，所述回声参考信号的相位与所述采集音频信号的相位相同；
35.确定所述采集音频信号与调整幅度和相位之后的回声参考信号之间的差值，为所述音频信号。
36.上述方案中，所述智能语音引擎还用于：
37.基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号之前，确认语音信号样本，以及所述语音信号样本对应的测试语音信号；
38.基于所述语音模型确定所述语音信号样本对应的预测语音信号；
39.确定所述语音信号样本对应的测试语音信号与所述预测语音信号之间的差异；
40.基于所述测试语音信号与所述预测语音信号之间的差异，调整所述语音模型的模型参数。
41.通过本技术提供的声音采集方法，通话过程中，获得关注方向；基于所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源
的信号；所述电子设备的扬声器所发出的声音位于所述关注方向以外；基于所述接收波束形成采集音频信号；基于回声抑制引擎处理所述采集音频信号生成音频信号；基于智能语音引擎处理所述音频信号生成语音输出信号，所述智能语音引擎用于滤除所述音频信号中的噪声信号。可以高效地去除通话过程中由于扬声器产生的回声，提升用户在通话过程中的体验。
附图说明
42.图1示出了本技术实施例提供的声音采集方法的一种可选流程示意图；
43.图2示出了本技术实施例提供的波束成形示意图；
44.图3示出了本技术实施例提供的声音采集方法的另一种可选流程示意图；
45.图4示出了本技术实施例提供的声音采集方法的又一种可选流程示意图；
46.图5示出了本技术实施例提供的波束成形示意图；
47.图6示出了本技术实施例提供的回声抑制引擎的示意图；
48.图7示出了本技术实施例提供的智能语音引擎处理所述音频信号的频谱图；
49.图8示出了本技术实施例提供的电子设备的可选结构示意图；
50.图9示出了本技术实施例提供的电子设备的硬件组成结构示意图。
具体实施方式
51.为使本技术的目的、特征、优点能够更加的明显和易懂，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而非全部实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
52.当前的电子设备，例如手机、平板电脑或笔记本电脑的通话方案，大致包括以下两种：
53.1、基于单麦克风的通话方案。
54.该方案中，通常将单麦克风放置在远离扬声器(喇叭或听筒)的一端，防止扬声器带来的较大的回声。但单麦克风的降噪效果很差，只对静态且稳定的噪声有比较好的降噪效果。
55.2、基于双麦克风的通话方案。
56.该方案中，因为包括2个麦克风，因此可以采用双麦克风的波束成形技术以减小电子设备屏幕左右两侧的噪声影响；但是对于电子设备屏幕前和电子设备屏幕后的噪声信号无法抑制；并且在双麦克风的方案中，麦克风分别布置在电子设备的顶部和底部，其中一颗麦克风(布置于顶部的麦克风)距离扬声器非常近，不可避免会引入回声。
57.因此，针对相关技术中通话过程中存在的缺陷，本技术提供一种声音采集方法，能够克服现有技术的部分或全部缺点。
58.图1示出了本技术实施例提供的声音采集方法的一种可选流程示意图，将根据各个步骤进行说明。
59.步骤s101，通话过程中，获得关注方向。
60.在一些实施例中，电子设备在通话过程(包括视频通话或语音通话)中，获得关注
方向。其中，所述关注方向包括音源相对于所述电子设备的方向；所述电子设备包括至少三颗麦克风组成的麦克风阵列，可选的，所述至少三颗麦克风可以分别设置于所述电子设备的顶部、所述电子设备的底部和所述电子设备的背部。
61.可选的，所述音源相对于所述电子设备的方向，可以是所述音源相对于所述电子设备的屏幕中心的方向。
62.在一些可选实施例中，所述电子设备可以基于所述至少三颗麦克风接收的声音信号的强度确定所述关注方向。
63.步骤s102，基于所述关注方向形成所述麦克风阵列的接收波束。
64.在一些实施例中，所述电子设备基于所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源的信号；所述电子设备的扬声器所发出的声音位于所述关注方向以外。
65.在一些可选实施例中，所述电子设备可以基于所述至少三个麦克风分别获取一路声音信号，对全部所述声音信号进行同步处理，使全部所述声音信号的相位相同；基于所述关注方向对所述进行同步处理后的全部声音信号进行加权求和，得到所述接收波束。
66.图2示出了本技术实施例提供的波束成形示意图。
67.具体实施时，如图2所示，所述心形波束的0度对应所述关注方向，所述电子设备基于所述关注方向对所述接收波束进行波束成形处理。为了聚焦于所述关注方向上并抑制所述关注方向以外的音源，在进行加权求和的过程中，可以增大所述关注方向所对应的声音信号的系数，减小关注方向以外的声音信号的系数。
68.如图2所示，所述心形波束的0度对应所述关注方向，心形波束的-30
°
～30
°
中，声音信号的强度是没有衰减的，但是在左端-60
°
、右端60
°
、左端-90
°
、右端90
°
、和180
°
的位置，声音信号的强度都有不同程度的衰减，因此，在波束成形的过程中，使关注方向对应的声音信号在心形的内部，噪声信号或部分回声信号在心形外部，可以一定程度上衰减噪声和部分回声。
69.可选的，所述电子设备可以基于所述关注方向确定位于所述关注方向的第一声音信号，基于所述第一声音信号，调整其他声音信号的相位，使全部所述声音信号的相位相同。
70.步骤s103，基于所述接收波束形成采集音频信号。
71.在一些实施例中，电子设备基于所述关注方向形成所述麦克风阵列的接收波束后，在关注方向不改变的情况下，对于至少三个麦克风分别获取的声音信号可以参考步骤s102中加权求和的系数和相位对所述至少三个麦克风分别获取的声音信号进行波束成形；无需重复确定加权系数。
72.步骤s104，基于回声抑制引擎处理所述采集音频信号生成音频信号。
73.在一些实施例中，所述电子设备基于回声抑制引擎处理所述采集音频信号，生成音频信号。
74.在一些实施例中，所述电子设备获得所述通话过程中的下行音频信号，以所述下行音频信号作为回声参考信号，所述下行音频信号用于所述扬声器的音频输出；所述回声抑制引擎基于所述回声参考信号对所述采集音频信号处理，以降低所述采集音频信号中回声信号的影响，并生成音频信号；所述音频信号包括语音信号以及残留回声信号。
75.具体实施时，所述电子设备调整所述回声参考信号的幅度和相位；使得所述回声参考信号的幅度与所述采集音频信号的幅度相等，所述回声参考信号的相位与所述采集音频信号的相位相同；确定所述采集音频信号与调整幅度和相位之后的回声参考信号之间的差值，为所述音频信号。
76.由于步骤s102的波束成形中，不仅改变了声音信号的波形和/或频谱，还改变了麦克风采集到的扬声器的回声信号的波形和频谱。因此，基于回声参考信号无法完全抑制波束成形后的回声信号，音频信号中仍然会有非线性残留回声信号，为了提升用户体验，需要进一步去除残留回声信号。
77.步骤s105，基于智能语音引擎处理所述音频信号生成语音输出信号。
78.在一些实施例中，所述电子设备基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号，其中，所述语音信号为所述语音输出信号。
79.在一些可选实施例中，所述电子设备还可以基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号之前，训练所述语音模型。其中，可以在电子设备出厂前训练所述语音模型；还可以在电子设备的使用过程中训练所述语音模型。
80.具体实施时，所述电子设备确认语音信号样本，以及所述语音信号样本对应的测试语音信号；基于所述语音模型确定所述语音信号样本对应的预测语音信号；确定所述语音信号样本对应的测试语音信号与所述预测语音信号之间的差异；基于所述测试语音信号与所述预测语音信号之间的差异，调整所述语音模型的模型参数。
81.在一些实施例中，若所述语音模型是电子设备出厂前训练的，则所述语音信号样本可以是所述电子设备基于数据库获得的语音信号样本；其中所述语音信号样本可以是不包括噪声和/或回声的纯净语音信号，此时所述测试语音信号为所述语音信号样本；或者，所述语音信号样本可以是包括噪声和/或回声的语音信号，所述测试语音信号为所述语音信号样本对应的纯净语音。其中，包括噪声和/或回声的语音信号可以通过步骤s101至步骤s104获得。
82.在另一些实施例中，若所述语音模型是电子设备使用过程中训练的，则所述语音信号样本可以是所述电子设备采集到的所述电子设备对应的用户的语音信号。如此，在使用过程中训练语音模型，可以更贴合用户的声音属性和语言特征，使得语音模型的输出更加准确且自然。
83.如此，通过本技术实施例提供的声音采集方法，通话过程中，获得关注方向；基于所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源的信号；所述电子设备的扬声器所发出的声音位于所述关注方向以外；基于所述接收波束形成采集音频信号；基于回声抑制引擎处理所述采集音频信号生成音频信号；基于智能语音引擎处理所述音频信号生成语音输出信号，所述智能语音引擎用于滤除所述音频信号中的噪声信号。可以高效地去除通话过程中由于扬声器产生的回声和环境中的噪声，提升用户在通话过程中的体验。
84.图3示出了本技术实施例提供的声音采集方法的另一种可选流程示意图，将根据各个步骤进行说明。
85.步骤s201，通话过程中，获得关注方向。
86.在一些实施例中，电子设备在通话过程中，获得关注方向。其中，所述关注方向包
括音源相对于所述电子设备的方向；所述电子设备包括至少三颗麦克风组成的麦克风阵列，可选的，所述至少三颗麦克风可以分别设置于所述电子设备的顶端、所述电子设备的底端和所述电子设备的背部。
87.可选的，所述音源相对于所述电子设备的方向，可以是所述音源相对于所述电子设备的屏幕中心的方向。
88.在一些可选实施例中，所述电子设备可以基于所述至少三颗麦克风接收的声音信号的强度确定所述关注方向。
89.步骤s202，基于调整参数和所述关注方向形成所述麦克风阵列的接收波束。
90.在一些实施例中，所述调整参数用于调整所述接收波束中噪声信号的强度；所述电子设备基于所述调整参数和所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向以及所述调整参数对应的方向并抑制所述关注方向以及所述调整参数对应的方向以外音源的信号；其中，所述电子设备的扬声器所发出的声音位于所述关注方向以外。
91.在一些可选实施例中，所述电子设备可以基于所述至少三个麦克风分别获取一路声音信号，对全部所述声音信号进行同步处理，使全部所述声音信号的相位相同；基于所述调整参数和所述关注方向对所述进行同步处理后的全部声音信号进行加权求和，得到所述接收波束。
92.图2示出了本技术实施例提供的波束成形后的信号示意图。
93.具体实施时，如图2所示，所述心形波束的0度对应所述关注方向，所述电子设备基于所述关注方向对所述接收波束进行波束成形处理。
94.如图2所示，所述心形波束的0度对应所述关注方向，心形波束的-30
°
～30
°
中，声音信号是没有衰减的，但是在左端-60
°
、右端60
°
、左端-90
°
、右端90
°
、和180
°
的位置，声音信号都有不同程度的衰减，因此，在波束成形的过程中，使关注方向对应的声音信号在心形的内部，噪声或部分回声信号在心形外部，可以一定程度上衰减噪声和部分回声。
95.在一些可选实施例中，可能需要引入环境中的声音信号(噪声信号)，使得通话过程中远端用户可以知晓近端用户的通话环境。为了聚焦于所述关注方向和环境中的声音信号，在进行加权求和的过程中，可以适当减小所述关注方向所对应的声音信号的系数，增大关注方向以外的声音信号的系数。
96.可选的，所述电子设备可以基于所述关注方向确定位于所述关注方向的第一声音信号，基于所述第一声音信号，调整其他声音信号的相位，使全部所述声音信号的相位相同。
97.步骤s203，基于所述接收波束形成采集音频信号。
98.在一些实施例中，电子设备基于所述关注方向形成所述麦克风阵列的接收波束后，在关注方向不改变的情况下，对于至少三个麦克风分别获取的声音信号可以参考步骤s102中加权求和的系数和相位对所述至少三个麦克风分别获取的声音信号进行波束成形；无需重复确定加权系数。
99.步骤s204，基于回声抑制引擎处理所述采集音频信号生成音频信号。
100.在一些实施例中，所述电子设备基于回声抑制引擎处理所述采集音频信号，生成音频信号。
101.在一些实施例中，所述电子设备获得所述通话过程中的下行音频信号，以所述下
行音频信号作为回声参考信号，所述下行音频信号用于所述扬声器的音频输出；所述回声抑制引擎基于所述回声参考信号对所述采集音频信号处理，以降低所述采集音频信号中回声信号的影响，并生成音频信号；所述音频信号包括语音信号以及残留回声信号。
102.具体实施时，所述电子设备调整所述回声参考信号的幅度和相位；使得所述回声参考信号的幅度与所述采集音频信号的幅度相等，所述回声参考信号的相位与所述采集音频信号的相位相同；确定所述采集音频信号与调整幅度和相位之后的回声参考信号之间的差值，为所述音频信号。
103.由于步骤s202的波束成形中，不仅改变了声音信号的波形和/或频谱，还改变了麦克风采集到的扬声器的回声信号的波形和频谱。
104.因此，步骤s204中，基于回声参考信号无法完全抑制波束成形后的回声信号，为了提升用户体验，需要进一步去除残留回声信号。
105.步骤s205，基于智能语音引擎处理所述音频信号生成语音输出信号。
106.在一些实施例中，所述电子设备基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号，其中，所述语音信号为所述语音输出信号。
107.在一些可选实施例中，所述电子设备还可以基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号之前，训练所述语音模型。其中，可以在电子设备出厂前训练所述语音模型；还可以在电子设备的使用过程中训练所述语音模型。
108.具体实施时，所述电子设备确认语音信号样本，以及所述语音信号样本对应的测试语音信号；基于所述语音模型确定所述语音信号样本对应的预测语音信号；确定所述语音信号样本对应的测试语音信号与所述预测语音信号之间的差异；基于所述测试语音信号与所述预测语音信号之间的差异，调整所述语音模型的模型参数。
109.在一些实施例中，若所述语音模型是电子设备出厂前训练的，则所述语音信号样本可以是所述电子设备基于数据库获得的语音信号样本；其中所述语音信号样本可以是不包括噪声和/或回声的纯净语音信号，此时所述测试语音信号为所述语音信号样本；或者，所述语音信号样本可以是包括噪声和/或回声的语音信号，所述测试语音信号为所述语音信号样本对应的纯净语音。其中，包括噪声和/或回声的语音信号可以通过步骤s201至步骤s204获得。
110.如此，通过本技术实施例提供的声音采集方法，通话过程中，获得关注方向；基于所述调整参数和所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源的信号；所述电子设备的扬声器所发出的声音位于所述关注方向以外；基于所述接收波束形成采集音频信号；基于回声抑制引擎处理所述采集音频信号生成音频信号；基于智能语音引擎处理所述音频信号生成语音输出信号，所述智能语音引擎用于滤除所述音频信号中的噪声信号。可以高效地去除通话过程中由于扬声器产生的回声，并根据调整参数过滤环境中的噪声，满足不同通化场景的需求，提升用户在通话过程中的体验。
111.图4示出了本技术实施例提供的声音采集方法的又一种可选流程示意图，将根据各个步骤进行说明。
112.步骤s301，波束成形降噪。
113.在一些实施例中，所述电子设备获取调整参数，所述调整参数用于调整所述接收
波束中噪声信号的强度；在某些场景中，可能需要引入环境中的声音信号(噪声信号)，使得通话过程中远端用户可以知晓近端用户通话环境。其中，远端用户可以是通话过程中，与扬声器输出的声音信号相对应的一端；近端用户可以是通话过程中，与麦克风采集的声音信号相对应的一端(即电子设备对应的一端)。
114.在一些实施例中，电子设备在通话过程中，获得关注方向。其中，所述关注方向包括音源相对于所述电子设备的方向；所述电子设备包括至少三颗麦克风组成的麦克风阵列，可选的，所述至少三颗麦克风可以分别设置于所述电子设备的顶部、所述电子设备的底部和所述电子设备的背部。
115.可选的，所述音源相对于所述电子设备的方向，可以是所述音源相对于所述电子设备的屏幕中心的方向。
116.在一些可选实施例中，所述电子设备可以基于所述至少三颗麦克风接收的声音信号的强度确定所述关注方向。
117.在一些实施例中，所述电子设备根据调整参数和/或通话过程中的关注方向，调整所述电子设备的麦克风阵列接收的至少三路声音信号的幅度和相位，对所述电子设备的麦克风阵列接收的至少三路声音信号进行波束成形，使得所述电子设备的麦克风阵列接收的至少三路声音信号形成心形波束。
118.图5示出了本技术实施例提供的波束成形示意图。
119.图5中，由于声源相对于电子设备的至少三颗麦克风的距离、方向不同，因此，需要确定麦克风阵列接收的至少三路声音信号需要调整相位值和幅度值，使得所述至少三路声音信号形成一个心形波束。后续基于相同关注方向接收声音信号时，可以直接基于所述相位值和所述幅度值对所述至少三路声音信号进行波束成形处理。经过波束成形处理后的信号为采集音频信号。
120.此外，图5中，不同麦克风采集的声音信号可以分别进行加权求和处理，如麦克风1与麦克风2的声音信号进行加权求和处理；麦克风2和麦克风3的声音信号进行加权求和处理，然后再对两次加权求和处理后得到的声音信号再次调整幅度值和相位值，进行加权求和处理，最终得到所述接收波束；还可以基于上述分别进行加权求和处理的结果，调整所述至少三颗麦克风采集的声音信号，得到所述接收波束。
121.步骤s302，线性回声抑制。
122.在一些实施例中，所述电子设备基于回声抑制引擎处理所述采集音频信号，生成音频信号。
123.图6示出了本技术实施例提供的回声抑制引擎的示意图。
124.图6中，远端的语音信号由近端的扬声器播放，由于所述扬声器距离电子设备的麦克风较近，麦克风不可避免的会将扬声器产生的下行音频信号与近端的声音信号一同采集，采集到的扬声器产生的下行音频信号为回声信号，如果不进行处理，麦克风采集到的声音信号传输到远端的电子设备，并由远端的电子设备的扬声器输出时，远端用户会听到回声信号(即远端用户输出的语音)；对于相关技术中的单麦克风方案，只需要将下行音频信号作为回声参考信号，与麦克风采集到的声音信号进行线性处理，即可去除回声信号。但是在双麦克风或多麦克风的方案中，对多个麦克风采集到的声音信号进行了波束成形处理，在进行波束成形的过程中，也不可避免将部分回声信号(部分下行音频信号)保留在波束内
部(心形形状内)，因此，需要进行回声抑制处理，以去除掉采集音频信号中的部分回声信号。由于经过波束成形处理后的回声信号的波形和/或频谱均发生了变换，仅仅使用单麦克风的回声抑制方案无法完全去除采集音频信号中的回声信号，还需要步骤s303，通过智能语音引擎处理所述音频信号生成语音输出信号。
125.在一些实施例中，所述电子设备获得所述通话过程中的下行音频信号，以所述下行音频信号作为回声参考信号，所述下行音频信号用于所述扬声器的音频输出；所述回声抑制引擎基于所述回声参考信号对所述采集音频信号处理，以降低所述采集音频信号中回声信号的影响，并生成音频信号；所述音频信号包括语音信号以及残留回声信号。
126.具体实施时，所述回声抑制引擎的自适应滤波器调整所述回声参考信号的幅度和相位；使得所述回声参考信号的幅度与所述采集音频信号的幅度相等，所述回声参考信号的相位与所述采集音频信号的相位相同；确定所述采集音频信号与调整幅度和相位之后的回声参考信号之间的差值，为所述音频信号。
127.但是由于步骤s301的波束成形中，不仅改变了声音信号的波形和/或频谱，还改变了麦克风采集到的扬声器的回声信号的波形和频谱。因此，基于回声参考信号无法完全抑制波束成形后的回声信号，仍会有非线性残余回声信号，为了提升用户体验，需要进一步去除残留回声信号。
128.步骤s303，人工智能(artificial intelligence，ai)残余回声消除。
129.在一些实施例中，所述电子设备对音频信号进行ai残余回声消除。所述电子设备基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号，其中，所述语音信号为所述语音输出信号。
130.在一些可选实施例中，所述电子设备还可以基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号之前，训练所述语音模型。其中，可以在电子设备出厂前训练所述语音模型；还可以在电子设备的使用过程中训练所述语音模型。
131.具体实施时，所述电子设备确认语音信号样本，以及所述语音信号样本对应的测试语音信号；基于所述语音模型确定所述语音信号样本对应的预测语音信号；确定所述语音信号样本对应的测试语音信号与所述预测语音信号之间的差异；基于所述测试语音信号与所述预测语音信号之间的差异，调整所述语音模型的模型参数。
132.在一些实施例中，若所述语音模型是电子设备出厂前训练的，则所述语音信号样本可以是所述电子设备基于数据库获得的语音信号样本；其中所述语音信号样本可以是不包括噪声和/或回声的纯净语音信号，此时所述测试语音信号为所述语音信号样本；或者，所述语音信号样本可以是包括噪声和/或回声的语音信号，所述测试语音信号为所述语音信号样本对应的纯净语音。其中，包括噪声和/或回声的语音信号可以通过步骤s301至步骤s302获得。
133.在另一些实施例中，若所述语音模型是电子设备使用过程中训练的，则所述语音信号样本可以是所述电子设备采集到的所述电子设备对应的用户的语音信号。如此，在使用过程中训练语音模型，可以更贴合用户的声音属性和语言特征，使得语音模型的输出更加准确且自然。
134.图7示出了本技术实施例提供的智能语音引擎处理所述音频信号的频谱图。
135.根据图7(1)所示的频谱可以看出，音频信号中包括大量的非线性回声信号和噪声
信号，图7(2)中经过智能语音引擎处理，大量非线性回声信号和噪声信号被去除，只剩余纯净的语音信号。
136.如此，通过本技术实施例提供的声音采集方法，通话过程中，获得关注方向；基于所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源的信号；所述电子设备的扬声器所发出的声音位于所述关注方向以外；基于所述接收波束形成采集音频信号；基于回声抑制引擎处理所述采集音频信号生成音频信号；基于智能语音引擎处理所述音频信号生成语音输出信号，所述智能语音引擎用于滤除所述音频信号中的噪声信号。可以高效地去除通话过程中由于扬声器产生的回声和环境中的噪声，提升用户在通话过程中的体验。
137.图8示出了本技术实施例提供的电子设备的可选结构示意图，将根据各个部分进行说明。
138.在一些实施例中，所述电子设备500包括由多个麦克风组成的麦克风阵列；还包括获得单元501、波束成形单元502、回声抑制引擎503和智能语音引擎504。
139.所述获得单元501，用于通话过程中，获得关注方向；
140.所述波束成形单元502，用于基于所述关注方向形成所述麦克风阵列的接收波束，以聚焦于所述关注方向上并抑制所述关注方向以外音源的信号；所述电子设备500的扬声器所发出的声音位于所述关注方向以外；基于所述接收波束形成采集音频信号；
141.所述回声抑制引擎503，用于处理所述采集音频信号生成音频信号；
142.所述智能语音引擎504，用于处理所述音频信号生成语音输出信号，所述智能语音引擎504用于滤除所述音频信号中的噪声信号。
143.所述回声抑制引擎503，具体用于获得所述通话的下行音频信号，所述下行音频信号作为回声参考信号，所述下行音频信号用于所述扬声器的音频输出；
144.所述回声抑制引擎503基于所述回声参考信号对所述采集音频信号处理，以降低所述采集音频信号中回声信号的影响，并生成音频信号；所述音频信号包括语音信号以及残留回声信号。
145.所述智能语音引擎504，具体用于基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号，其中，所述语音信号为所述语音输出信号。
146.所述回声抑制引擎503，具体用于调整所述回声参考信号的幅度和相位；使得所述回声参考信号的幅度与所述采集音频信号的幅度相等，所述回声参考信号的相位与所述采集音频信号的相位相同；确定所述采集音频信号与调整幅度和相位之后的回声参考信号之间的差值，为所述音频信号。
147.所述智能语音引擎504，还用于基于语音模型提取所述音频信号中的语音信号以滤除所述音频信号中的残留回声信号之前，确认语音信号样本，以及所述语音信号样本对应的测试语音信号；基于所述语音模型确定所述语音信号样本对应的预测语音信号；确定所述语音信号样本对应的测试语音信号与所述预测语音信号之间的差异；基于所述测试语音信号与所述预测语音信号之间的差异，调整所述语音模型的模型参数。
148.图9示出了本技术实施例提供的电子设备的硬件组成结构示意图，电子设备500包括：至少一个处理器701、存储器702和至少一个网络单元704。电子设备500中的各个组件通过总线系统705耦合在一起。可理解，总线系统705用于实现这些组件之间的连接通信。总线
系统705除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线系统705。
149.可以理解，存储器702可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是rom、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、磁性随机存取存储器(fram，ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram，random access memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(sram，static random access memory)、同步静态随机存取存储器(ssram，synchronous static random access memory)、动态随机存取存储器(dram，dynamic random access memory)、同步动态随机存取存储器(sdram，synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram，double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram，enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram，synclink dynamic random access memory)、直接内存总线随机存取存储器(drram，direct rambus random access memory)。本技术实施例描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
150.本技术实施例中的存储器702用于存储各种类型的数据以支持电子设备500的操作。这些数据的示例包括：用于在电子设备500上操作的任何计算机程序，如应用程序722。实现本技术实施例方法的程序可以包含在应用程序722中。
151.所述本技术实施例揭示的方法可以应用于处理器701中，或者由处理器701实现。处理器701可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，所述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。所述的处理器701可以是通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成前述方法的步骤。
152.在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(asic，application specific integrated circuit)、dsp、可编程逻辑器件(pld，programmable logic device)、复杂可编程逻辑器件(cpld，complex programmable logic device)、fpga、通用处理器、控制器、mcu、mpu、或其他电子元件实现，用于执行前述方法。
153.除了上述方法和设备以外，本技术的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的方法中的步骤。
154.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
155.此外，本技术的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的方法中的步骤。
156.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
157.以上结合具体实施例描述了本技术的基本原理，但是，需要指出的是，在本技术中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本技术的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本技术为必须采用上述具体的细节来实现。
158.本技术中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。
159.还需要指出的是，在本技术的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本技术的等效方案。
160.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本技术。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本技术的范围。因此，本技术不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
161.为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本技术的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。