移除讲话者对噪声估计器的干扰的方法与流程

移除讲话者对噪声估计器的干扰的方法
1.相关申请的交叉引用
2.本技术要求于2019年10月1日提交的美国临时专利申请no.62,908,829的权益，该申请的公开在此以引用的方式并入本文。

背景技术：

3.一些电子设备，诸如一些可穿戴电子设备，可以检测背景噪声水平。例如，检测到的背景噪声水平可以用于噪声消除，以调整音频输出的播放音量等。要确定背景噪声水平，电子设备可以监测由麦克风接收到的音频。然而，麦克风可能会拾取所有噪声，包括非背景噪声的噪声。例如，麦克风可能会错误地将用户的语音输入检测为噪声，并且因此在计算背景噪声水平时可能会提供错误估计。

技术实现要素：

4.本公开的一个方面提供了一种用于确定背景噪声水平的方法。该方法包括由一个或多个处理器从第一麦克风和第二麦克风接收音频。该方法包括：由一个或多个处理器比较在第一麦克风处接收到音频的第一时间和在第二麦克风处接收到音频的第二时间；基于接收到的音频是用户声音还是背景噪声的所述比较来确定音频的源；以及基于所述音频的源而使用一个或多个处理器来抑制从第一源接收的音频。该方法还可以包括使用一个或多个传感器来确定用户是否正在讲话。
5.当用户正在讲话时，该方法包括使用一个或多个处理器来抑制来自第一麦克风的音频，从而创建通过在远离用户的嘴的方向上波束成形的麦克风接收音频的效果。该方法还可以包括由一个或多个处理器检测被抑制的音频中的用户语音，并且使用一个或多个处理器使来自被抑制的音频的用户语音无效。
6.本公开的另一方面提供了一种设备，所述设备具有：两个或多个麦克风；以及一个或多个处理器，所述一个或多个处理器与所述两个或多个麦克风通信。一个或多个处理器可以被配置成从第一麦克风和第二麦克风接收音频。一个或多个处理器还可以被配置成比较在第一麦克风处接收到音频的第一时间和在第二麦克风处接收到音频的第二时间，确定音频的源，并抑制从第一源接收到的音频。
7.在一些实例中，与两个或多个麦克风通信的一个或多个处理器还被配置成确定用户是否正在讲话。当用户正在讲话时，一个或多个处理器可以被配置成抑制在远离用户嘴的方向上的音频。一个或多个处理器还可以被配置成确定用户的语音，在被抑制的信号中检测用户的语音，并且使来自被抑制的信号的用户语音无效。
8.本公开的另一方面提供了一种存储指令的非暂时性计算机可读介质，所述指令当由一个或多个处理器实行时，使一个或多个处理器从第一麦克风和第二麦克风接收音频，比较在第一麦克风处接收到音频的第一时间和在第二麦克风处接收到音频的第二时间，确定音频的源，并且基于音频源的位置来抑制从第一源接收到的音频。
附图说明
9.图1a至图1b是根据本公开的各方面的示例设备的透视图。
10.图1c是佩戴根据图1a至图1b的设备的用户的直观图。
11.图2是图示根据本公开的各方面的示例设备的框图。
12.图3a至图3d图示了根据本公开的各方面的不同场景中的信号处理的示例波束成形效果。
13.图4是图示根据本公开的各方面的示例方法的流程图。
14.图5是图示根据本公开的各方面的另一示例方法的流程图。
具体实施方式
15.本文所描述的系统和方法涉及一种被配置成在移除语音干扰之后确定背景噪声水平的设备。该设备可以包括接收音频的两个全向麦克风。设备可以将通过第一麦克风接收到的音频与通过第二麦克风接收到的音频进行比较。例如，设备可以比较在第一麦克风处接收到音频的时间与在第二麦克风处接收到音频的时间、通过第一麦克风和第二麦克风接收的音频的音量、通过第一麦克风和第二麦克风接收的频率等。基于此种比较，设备可以确定音频的源。例如，设备可以确定音频是用户讲话还是背景噪声。根据一些示例，音频源的确定还可以基于传感器信息来确定，诸如检测用户的嘴何时以与用户讲话一致的方式移动的加速度计。基于音频源以及用户是否正在讲话，可以使用数字信号处理(“dsp”)来处理音频。
16.例如，如果用户正在讲话，则可以处理音频以抑制来自音频的用户的语音。就此而言，经过处理的音频具有通过波束成形麦克风接收的效果，针对背景噪声的方向而不是用户语音的方向，尽管音频实际上是通过两个或多个全向麦克风接收的。在一些示例中，可以从接收到的音频中完全消除用户的语音，诸如通过使用消除技术。因此，用户的语音不会导致对背景噪声水平的错误估计。
17.图1a图示了示例设备100。虽然在该示例中设备100是耳塞，但是应当理解，在其他示例中，设备可能是各种不同类型中的任何一种。例如，设备可以是耳机、智能眼镜、虚拟现实播放器、其他头戴式显示器等。设备100可以包括输入、传感器、内部电子设备和音频输出。
18.输入可以包括用于接收音频输入信号的音频检测输入，诸如第一麦克风102和第二麦克风104。如图1a中所示，第一麦克风102可以位于设备的一部分上，诸如靠近设备100的前部。第二麦克风104可以位于设备的第二部分中，诸如靠近设备104的后部。当设备100是耳塞时，当耳塞在耳内时，设备的前部可以例如靠近用户的嘴。第一麦克风102和第二麦克风104中的每个可以具有全向波束图案，使得第一麦克风102和第二麦克风104两者从各种方向拾取用户周围的声响。例如，如果用户正在讲话，则此种检测到的声响可以包括用户的语音和背景噪声。第一麦克风和第二麦克风可以具有重叠的范围，并且因此可从同一源接收音频。然而，因为第一麦克风和第二麦克风在设备上的位置不同，尽管音频信号来自相同的源，但是由第一麦克风接收到的音频信号与由第二麦克风接收到的音频信号不同。例如，相应麦克风接收到信号的时间、相应麦克风接收到的信号的以db为单位的响度以及相应麦克风接收到的信号的频率等其他因素可能不同。
19.根据一些示例，输入还可以包括单独的用户输入，诸如触敏外壳、仪表盘、按钮或用于接收手动命令的其他控件。
20.其他类型的用户输入，诸如运动传感器或其他类型的传感器，可以适于接收手势输入等。
21.如图1b中所示，第一麦克风132可以位于设备100的第一边缘上，诸如当设备100被佩戴时设备100的更靠近用户脸部或嘴的前边缘。第二麦克风134可以位于设备100的第二边缘上，诸如当设备被佩戴时与前边缘相比更远离用户面部或嘴的后边缘。
22.虽然在图1a和图1b中仅示出了两个麦克风，但是设备100可以包括多于两个的麦克风。仅作为示例，附加的麦克风可以定位在第一麦克风与第二麦克风之间，靠近设备外表面的中心、靠近设备的上边缘和/或下边缘、邻近第一麦克风和第二麦克风等。此外，两个或多个麦克风的位置可能与图1a和图1b中示出的位置不同。例如，两个或多个麦克风相对于设备的外壳的放置可能不同。例如，两个或多个麦克风可以位于设备的任何部分或任何表面上。附加地或可替代地，两个或多个麦克风相对于彼此的放置可能不同，诸如通过增加或减小麦克风之间的距离。
23.传感器可以确定用户是否正在讲话。例如，传感器可以包括检测与用户讲话一致的移动的加速度计。该移动可以包括用户的嘴或下巴的移动。根据其他示例，传感器可以确定用户是否正在佩戴设备。例如，传感器可以包括触摸传感器、热传感器、运动传感器等，所述传感器检测与以下情况一致的条件：设备插入用户耳朵、戴在头上或取决于设备类型以其他方式佩戴。
24.内部电子设备可以包括例如一个或多个处理器或其他部件，所述一个或多个处理器或其他部件适于处理通过两个或多个麦克风102、104接收到的音频。这类处理可以导致音频信号具有好像它们是通过波束成形麦克风接收到的效果。例如，内部电子设备可以确定特定音频信号的源，并且处理接收到的音频以从所确定的源减少或移除音频信号。例如，内部电子设备可以确定接收到的音频是用户讲话还是背景噪声。内部电子设备可以通过例如比较通过第一麦克风102和第二麦克风104接收到的音频来确定所述源。这类比较可以涉及以分贝(“db”)为单位的音频响度、在每个麦克风处接收到音频的时间、频率等。
25.通过比较接收到的信号的响度，设备可以确定音频源的位置是靠近用户的前方还是来自用户的后方。例如，如果第一麦克风接收到的第一信号比第二麦克风接收到的第二信号更响亮，则声响源的位置可能更靠近第一麦克风。附加地或可替代地，声响可能来自朝向用户的前方，使得第一麦克风接收到的信号比第二麦克风接收到的第二信号更响亮。因此，第一麦克风接收到的信号比第二信号更响亮可能指示音频是用户的语音。在一些示例中，如果第二麦克风接收到的第二信号比第一麦克风接收到的第一信号更响亮，则声响源的位置可能更靠近第二麦克风。声响可能来自用户后方，并且因此可能是背景噪声。本文提供的示例基于最靠近用户嘴的第一麦克风，并且不意味着限制麦克风的放置、位置的确定或麦克风接收到的音频的类型。
26.通过比较每个麦克风接收到信号的时间，设备可以确定音频源的位置是靠近用户的前方还是来自用户的后方。在一些示例中，如果第一麦克风在第二麦克风接收第二信号之前接收第一信号，则声响源的位置可以更靠近第一麦克风。附加地或可替代地，声响可以来自用户的前方，使得第一麦克风在第二麦克风接收第二信号之前接收第一信号。第一麦
克风在第二麦克风接收第二信号之前接收第一信号可能指示音频是用户的语音。当第二麦克风在第一麦克风接收第一信号之前接收第二信号时，音频源的位置可能更靠近第二麦克风或在用户后方。因此，音频源可能是背景噪声。
27.内部电子设备可以抑制从麦克风102、104中的至少一个接收到的信号以计算背景噪声水平。例如，如果用户正在讲话，则内部电子设备可能会抑制来自第一麦克风的信号，以从背景噪声计算中移除用户的语音。
28.根据一些示例，内部电子设备可以附加地执行其他类型的信号处理，同时抑制用于背景噪声估计的用户语音。例如，内部电子设备可以出于噪声消除的目的抑制从麦克风102、104中的至少一个接收到的信号。在这种示例中，内部电子设备可能会抑制背景噪声以便放大用户的语音以用于传输目的。
29.输出136可以包括一个或多个扬声器以用于输出音频，诸如音乐、语音或其他音频内容的播放。输出136可以位于设备100的插入耳朵中的部分138(诸如耳塞的耳插)上。
30.虽然本文的描述和示例将设备100称为耳塞，但是应当理解，在其他示例中，该设备可以是增强现实和/或虚拟现实耳机、支持蓝牙的耳机、智能眼镜、可头戴式显示器、智能手表、手机和/或智能电话、平板计算机、音乐播放器等。
31.图1c图示了佩戴该设备的用户。设备100可以具有由全向波束图案102示出的第一麦克风和由全向波束图案104示出的第二麦克风。第一麦克风102和第二麦克风104可以接收作为用户语音108和背景噪声118的音频。设备100可以基于传感器信息来确定音频是用户的语音108。例如，加速度计可以检测到用户的嘴以与用户106讲话一致的方式移动。如果用户正在讲话，则第一麦克风102可以在第二麦克风104接收114用户语音108之前接收112用户语音108。附加地或可替代地，第一麦克风104可以接收112用户语音108，所述用户语音108比第二麦克风104接收114的用户语音更响亮。可以将在第一麦克风102处和第二麦克风104处接收到的音频信号的频率与加速度计读数进行比较，以确定信号源是否与用户的语音108相关。第二麦克风104可以在第一麦克风102接收122背景噪声118之前接收124背景噪声118。附加地或可替代地，第二麦克风104可以接收124背景噪声118，所述背景噪声118比第一麦克风102接收122的背景噪声118更响亮。设备100可以比较第一麦克风102和第二麦克风104接收音频时的音频时间和/或响度以确定是抑制还是放大信号。
32.图2提供了说明设备200的部件的示例框图。如图所示，设备200包括各种部件，诸如一个或多个处理器202、存储器204和通常存在于微处理器、通用计算机等中的其他部件。设备200还包括输入210、包括第一麦克风214和第二麦克风216的至少两个麦克风212、输出218和传感器218。
33.一个或多个处理器202可以是任何常规处理器，诸如市售微处理器。可替代地，一个或多个处理器可以是专用设备，诸如专用集成电路(asic)或其他基于硬件的处理器。虽然图2在功能上将设备200的处理器、存储器和其他元件图示为在同一框内，但是本领域普通技术人员将理解，处理器、计算设备或存储器实际上可以包括多个处理器、计算设备或可能会或可能不会存储在同一物理外壳内的存储器。相似地，存储器可以是位于与设备200的外壳不同的外壳中的硬盘驱动器或其他存储介质。因此，对处理器或计算设备的引用将被理解为包括对可能会或可能不会并行操作的一系列处理器或计算设备或存储器的引用。一个或多个处理器202可以被配置成对由两个或多个麦克风212接收的音频信号执行dsp。
34.存储器204可以存储可由处理器202访问的信息，包括可由处理器202实行的指令206以及数据208。存储器204可以是可操作以存储可由处理器202访问的信息的存储器类型，包括非暂时性计算机可读介质，或存储可借助电子设备读取的数据的其他介质，诸如硬盘驱动器、存储卡、只读存储器(“rom”)、随机存取存储器(“ram”)、光盘以及其他可写和只读存储器。本文公开的主题可以包括前述的不同组合，由此指令206和数据208的不同部分被存储在不同类型的介质上。
35.处理器202可以根据指令206检索、存储或修改数据208。举例来说，虽然本公开不受特定数据结构的限制，但是数据208可以存储在计算机寄存器中，作为具有多个不同字段和记录的表、xml文档或平面文件存储在关系数据库中。数据208还可以被格式化为计算机可读格式，诸如但不限于二进制值、ascii或unicode。再举例来说，数据208可以存储为位图，该位图由以压缩或未压缩或各种图像格式(例如，jpeg)、基于矢量的格式(例如，svg)或用于绘制图形的计算机指令存储的像素组成。此外，数据208可以包括足以识别相关信息的信息，诸如数字、描述性文本、专有代码、指标、对存储在其他存储器(包括其他网络位置)中的数据的引用或被函数用来计算相关数据的信息。
36.指令206可以是由处理器202直接实行的任何指令集，诸如机器代码，或间接实行的指令，诸如脚本。就此而言，术语“指令”、“应用”、“步骤”和“程序”在本文中可以互换使用。指令可以以目标代码格式存储以供处理器直接处理，或者以任何其他计算设备语言存储，该其他计算设备语言包括按需解释或预先编译的独立源代码模块的脚本或集合。下面更详细地解释指令的功能、方法和例程。
37.设备200还可以包括用于接收音量调节命令的输入210。输入210可以是例如用于接收手动命令的触摸传感器、仪表盘、按钮或其他控件。设备200还可以包括输出218。输出218可以是例如扬声器。
38.设备200可以具有位于多种位置处的至少两个麦克风212。第一麦克风214可以位于邻近设备的第一边缘的第一位置处。第一麦克风212可以接收用户音频，诸如用户的语音和背景噪声。第二麦克风216可以位于邻近设备的第二边缘的第二位置处。第二麦克风216可以接收用户音频和背景噪声。第一麦克风214和第二麦克风216可以彼此相对。
39.设备200可以包括用于确定用户是否正在讲话的传感器220。传感器220可以包括至少两个麦克风212中的一个或多个。如本文所述，两个或多个麦克风212可以基于接收到信号的时间、接收到信号时的响度、接收到信号的频率等来确定接收到的音频信号是用户的语音还是背景噪声。附加地或可替代地，传感器220可以包括加速度计222。加速度计222可以检测与用户讲话一致的移动，诸如用户的嘴、下巴以及其身体的其他部位的移动。加速度计222还可检测可与用户讲话区分开的其他类型的移动。例如，虽然加速度计222可以检测与用户步行、打字、驾驶等一致的移动，但是这类移动可以与讲话移动区分开来并且可以被忽略。设备可以从加速度计222接收加速度计信号。将接收到的加速度计信号与阈值进行比较，其中阈值指示与讲话一致的用户活动。例如，与讲话相比，运动可能具有较慢的频率响应。虽然人跑步可能会转化为大约3hz的频率，但人讲话可能会转化为大约100hz或更高的频率。因此，低通滤波器可以放置在例如低于10hz或更低处。设备确定接收到的加速度计信号是否满足阈值。如果不满足，则设备可以继续监测加速度计信号以确定用户是否正在讲话。
40.在一些示例中，加速度计信号可以包括来自一个设备内部或不同地联接的设备内部的多个加速度计222的多个信号。例如，多个加速度计222中的每一个可以具有不同的灵敏度，或者可以适于检测不同类型的用户活动。此外，多个加速度计222中的每个可以以不同方式定位以优化不同类型的用户活动的检测。
41.应当理解，设备200可以包括未示出的其他部件，诸如电池、用于电池的充电输入端、信号处理部件等。这类部件也可以用于指令206的实行。
42.图3a图示了使用设备时用户正在讲话并且该设备已经抑制了用户的语音的示例。如图所示，设备300可以是耳塞，很像图1a至图1c中描述的设备。设备300可以包括两个或多个可以接收音频的麦克风。音频可以是用户讲话308和背景噪声318。每个麦克风可以具有全向波束图案，使得第一麦克风和第二麦克风这两者都接收用户的语音308和背景噪声318。第一麦克风可以接收312用户的语音308，并且它也可以接收322背景噪声318。第二麦克风可以接收314用户的语音308，并且它也可以接收324背景噪声318。
43.设备300使用传感器(未示出)可以确定声响的源。例如，包括第一和第二麦克风以及至少一个加速度计的传感器可以确定用户306正在讲话308。第一麦克风可以在第二麦克风接收314用户语音308之前接收312用户语音308。附加地或可替代地，第一麦克风可以接收312用户语音308，所述用户语音308比第二麦克风接收314的用户语音308更响亮。当加速度计检测到与用户306讲话一致的移动时，设备300还可以确定用户306正在讲话308。因此，声响的源可能是用户306。附加地或可替代地，第一麦克风和第二麦克风还可以接收322、324背景噪声318，使得背景噪声是声响的源。
44.在设备确定用户正在讲话之后，设备可以确定要抑制哪个音频源。设备300可以抑制用户的语音308或背景噪声318。设备300可以在计算背景噪声水平之前抑制用户的语音308以防止错误估计。设备300可以抑制背景噪声318，并且因此集中于用户的语音308使得设备可以向处于对话的接收端的人传输更清晰的音频信号。附加地或可替代地，设备可以抑制背景噪声以向用户提供更清晰的音频输出。可以使用dsp多次同时处理相同的信号，使得设备可以处理这些信号，以既集中于用户在第一个应用中的讲话，又抑制用户在第二个应用中的讲话。例如，可以同时处理同一信号以允许设备清楚地传输用户的语音308，并出于计算背景噪声的目的移除用户的语音308。
45.如图3a中所示，设备可以抑制用户的语音308。要抑制用户的语音308，设备300可以执行dsp以抑制来自所述源(即，用户的嘴)的音频，并且取而代之的是集中于背景噪声。设备300可以处理由第一麦克风和第二麦克风接收312、314、322、324的音频以引起波束图案，就好像第一麦克风和第二麦克风在接收312、314、322、324信号时被波束成形一样，由波束图案330示出。由第一麦克风和第二麦克风接收312、314、322、324的信号可能已被处理成指向远离用户302嘴的心形波束图案330，以从由第一麦克风和第二麦克风检测到的音频中移除或抑制用户306的语音308。心形波束图案更集中于来自一个方向的声响而不是另一个方向的声响。经过处理的信号330可以集中于来自用户后方的音频，即背景噪声318，而不是用户的语音308。
46.一旦抑制了用户的语音308以使得用户的语音308不提供对背景噪声水平的错误估计，设备306就可以计算背景噪声水平。设备可以基于经过计算的背景噪声水平来调整设备的播放音量。如果在计算背景噪声水平时包括用户的语音，则经过计算的背景噪声水平
可能会高于应有的水平。为此，播放音量可以调整为高于该实例所需的音量。抑制的信号330也可用作执行回声消除、噪声消除等的参考。
47.图3b图示了使用设备时用户正在讲话并且设备已经抑制了背景噪声的示例。设备300可以抑制背景噪声318以当用户正在讲话308时提供噪声消除。附加地或可替代地，设备300可以抑制背景噪声318以集中于或放大用户的语音308以确保用户的语音308被清楚地传输给对话另一端的接受者，以确保仅传输用户的语音308等。
48.要抑制背景噪声318，设备300可以确定音频的源是背景噪声318。设备可以基于比较第一麦克风和第二麦克风接收到信号的时间、接收到的信号的响度等来确定接收到的音频是背景噪声。例如，可以在第一麦克风接收322背景噪声318之前通过第二麦克风接收324背景噪声318。附加地或可替代地，第二麦克风接收324的背景噪声318可以比第一麦克风接收322的背景噪声318更响亮。在这些示例中，设备300可以确定音频的源在用户306后方，并且因此是背景噪声318。设备300可以通过处理由第一麦克风和第二麦克风接收312、314、322、324到的信号来抑制背景噪声318。由第一麦克风和第二麦克风接收312、314、322、324到的信号可以被处理以引起波束图案，就好像第一麦克风和第二麦克风在接收312、314、322、324信号时被波束成形一样，由波束图案332示出。
49.如图3b中所示，由第一麦克风和第二麦克风接收312、314、322、324的信号可能已经被处理成指向用户306嘴的心形波束图案332，以集中于用户的语音308并移除或抑制背景噪声。
50.图3c与图3a相似，并且图示了在使用设备时用户正在讲话并且设备已经抑制了用户的语音的示例。如图3c中所示，由第一麦克风和第二麦克风接收到的信号可能已经被处理成指向远离用户302嘴的超心形波束图案340，以移除或抑制用户302的语音308。超心形波束图案340可以与心形波束图案330相似，但在图案的宽度方面不同。超心形波束图案可能比心形波束图案更具方向性，这意味着超心形波束图案在一个方向上更加集中或灵敏。超心形波束图案还可以基于背景噪声的成形方向在拾取所述背景噪声时提供更多隔离。
51.图3d与图3b相似，并且图示了在使用设备时用户正在讲话并且设备已经抑制了背景噪声的示例。如图3d中所示，由第一麦克风和第二麦克风接收到的信号可能已经被处理成指向用户302嘴的超心形波束图案342，以集中于用户302的语音308并移除或抑制背景噪声。
52.虽然以上示例包括通过将信号处理成心形波束图案和超心形波束图案来抑制用户的语音，但是也可以将信号处理成多种其他波束图案，并且因此以上示例并不意味着进行限制。
53.图4图示了用于抑制从第一源接收到的音频的示例方法。例如，在框410中，设备可以从两个或多个麦克风接收音频。音频可以包括由第一麦克风接收到的第一音频信号和由第二麦克风接收到的第二音频信号。由第一麦克风和第二麦克风接收到的音频是同一音频，但是信号可能在不同的时间接收到，可能具有不同的响度，可能具有不同的频率等。
54.在框420中，将第一麦克风接收到音频信号的时间与第二麦克风接收到音频信号的时间进行比较。附加地或可替代地，将由第一麦克风接收到的音频信号的响度与由第二麦克风接收到的音频信号的响度进行比较。可以将第一麦克风接收到的音频信号的频率与第二麦克风接收到的音频信号的频率进行比较。
55.在框430中，设备可以确定用户是否正在讲话。设备可以使用传感器来确定用户是否正在讲话。传感器可以包括两个或多个麦克风。附加地或可替代地，传感器可以包括至少一个加速度计，该加速度计可以检测与用户讲话一致的移动。
56.在框440中，确定音频的源。可以基于由第一麦克风接收到的音频的时间、响度、频率等与由第二麦克风接收到的音频的比较来确定所述源。音频的源可能是用户，诸如当用户正在讲话时。音频的源可能是背景噪声。
57.在框450中，抑制从第一源接收到的音频。根据一些示例，源可以是用户或背景噪声。例如，如果用户正在讲话，设备可能会抑制用户的语音，使得用户的语音不会导致对背景噪声水平的错误估计。附加地或可替代地，如果用户正在讲话，则设备可以在用户讲话时抑制背景噪声，使得用户的语音是唯一被传输的音频。
58.图5图示了在图4的框450抑制音频中可能包括的更多示例操作。
59.在框552中，设备可以对接收到的音频执行dsp以抑制来自特定源的音频信号。就此而言，经过处理的音频具有通过波束成形麦克风接收的效果，尽管它是通过两个全向麦克风接收的。此外，因为效果是通过dsp实现的，所以可以使用相同的两个全向麦克风在同一时间或不同时间创建各种不同类型的波束成形效果。例如，要计算背景噪声，可以通过处理接收到的音频来抑制来自用户的语音输入，以获得远离用户嘴方向的波束成形麦克风的效果。在同一时间或在不同时间，可以对接收到的音频进行处理以通过网络进行传输，并且为此可以抑制背景噪声，使得可以清楚地传输用户的语音。就此而言，设备可以抑制背景噪声信号，从而给出通过在朝向用户嘴的方向上波束成形的麦克风(诸如心形或超心形波束图案)接收到音频的效果。
60.在框554中，设备检测用户的语音是否保留在经过处理的信号中。例如，虽然可能已经抑制了通过靠近用户嘴的第一麦克风接收到的用户声音，但距离用户较远的第二麦克风可能仍然更微弱地拾取了用户的声音。如果设备在经过处理的信号中没有检测到用户的语音，则过程返回框552。
61.如果设备在经过处理的信号中仍然检测到用户的语音，则过程继续到块556，其中设备消除用户的语音。例如，用户的语音可以用作关于消除的参考信号。因此，可以使用数字信号处理来移除具有匹配参考信号的特性的接收到的音频。
62.在框558中，可以使用经过处理的音频来计算背景噪声水平。因为已经移除了用户的语音，所以在接收到有关计算的音频时，不会因用户讲话而人为地增加计算出的噪声水平。
63.通过抑制来自至少一个源的音频来确定背景噪声水平为用户提供了更好的用户体验。当用户正在讲话时，设备可能会抑制用户的语音以便在不包括用户的语音的情况下确定背景噪声水平。抑制用户的语音可以从背景噪声水平计算中移除错误估计。更准确的背景噪声计算可以提供更好的音量调整。此外，通过抑制来自至少一个源的音频，该设备能够提供更可靠的回声消除和噪声消除，诸如当背景噪声被抑制时。
64.除非另有说明，否则前述替代示例不是相互排斥的，而是可以以各种组合实现以达成独特的优势。因为可以在不脱离由权利要求所限定的主题的情况下利用以上讨论的特征的这些和其他变化和组合，所以应当通过说明而非限制权利要求所限定的主题的方式来理解实施例的前述描述。另外，本文所描述的示例的提供以及表述为“诸如”、“包括”等的子
短语不应被解释为将权利要求的主题限制于具体示例；相反，所述示例仅意在说明许多可能的实施例中的仅一个。此外，不同附图中的相同附图标记可以识别相同或相似的元件。